從GCP GKE的故障來檢視17 media的 Business continuity management and Disaster Recovery Plan — Part 1

在今年萬聖節前後左右GCP發生了有史以來規模最大故障,整個GKE的故障外加不穩定效能低落等等問題.從美國時間11/4 11:46 – 11/13 15:38 共歷時9天的時間.這一段時間造成國內最大的直播媒體平台極大的衝擊.因為此一事件讓這一最大的直播平台不知造成多少營業上的損失及用戶信心打擊.

這一篇文章我們要以此事件為師,檢視該平台在 BCM(Business continuity management)營運持續管理及DRP(Disaster Recovery Plan)災難復原計畫.及如何讓您的服務平台不會因類似的事件造成貴公司營運上的衝擊做好事前預防的準備.

首先先來介紹什麼是BCM(Business continuity management)營運持續管理.
BCM是ISO22301的標準認證,屬於風險管理的一種.
ISO 22301 的前身BS 25999為英國標準協會 (The British Standards Institution, BSI) 所制定及推動的營運持續管理系統標準。於2007年11月正式公佈,此國際標準提供一套可衡量的準則與指導綱要,指導組織如何建立良好的防護機制,以確保無論受到何種衝擊都能保有營運持續能力.
而為什麼有些企業需要取得這一類的認證呢?
通過此項驗證,等於向重要利害關係人保證組織已完全做好準備,同時也符合來自內部、法規、及客戶的各種要求.
ISO 22301營運持續管理系統讓組織無論面臨何種衝擊,均可持續營運。即使面臨衝擊,ISO 22301 也能協助組織持續營運。不論是何種規模企業、產業、公共或私人部門、製造業或服務業等,均適合採用符合ISO 22301的BCM 營運持續管理.

BCM簡單來說就是在日常企業營運中不斷評估企業營運環境所面臨的”風險”與”威脅”,對您的雲端服務平台來說就是要辨認此類的風險與威脅.
哪麼針對這一個平台來說風險是什麼呢?就是雞蛋放同一個藍子裡.賭這個雲端平台永遠都不會有事.整個團隊人員可能產生了認知偏誤.但一件事情永遠需要有人站在反對面來檢視.

而站在雲端用戶的角度來看,雲端BCM有3個要素需要被考量.
Availability/Integrity/Confidentiality,後面兩項不在此篇討論範圍內.
而Availability 這裡必須以廣的視角來檢視可用度這件事,例如多雲/混合雲等架構來增加系統的可用度,甚至組織/人員的異動也是風險之一.把視角廣度拉大檢視這個平台有關的每項活動做成check list招集所有相關的團隊及專家,你們可能就能發現其中的風險與威脅.

什麼又是DRP(Disaster recovery plan)呢?
相信對一般的IT人員來說比較熟悉的應該就是建立DR site(備援機房)了,但這只是DRP只是其中之一而已.DRP是一種制定適合該公司的計畫及各種狀況的對應方式.例如各式的天災人禍等.能夠依據此計畫做到服務全部回復或部分回復的快速應對.至於要做到全部或部分的服務回復則依據貴公司的資源/政策來決定.DRP的目標就是”快速”重建服務,不管是全部還是部分.
哪在此一事件中我們看到那一部分需要改進呢?
就是沒有整個平台的DRP,在一開始事件發生時期望平台能夠盡快修復它.這讓筆者想到 SRE這本書的第一章開宗名義的第一句話”

Hope is not a strategy.
Traditional SRE saying

DRP裡應該明定各項服務有任何不正常時超過一定的時間需要採取的下一步行動是什麼.只依據過往的經驗來判斷其實是不合邏輯的.高度的敏捷性卻失去了ㄧ致性.

下一篇我們將說明針對使用雲端平台服務,成功的BCM還有DRP的因素有哪些.

發佈留言