上一篇我們從GKE故障的案例來檢視 17 media的BCDR(business continuity & disaster recovery).這一篇我們來review.在雲端平台怎麼讓我們的BCDR能夠成功的重要因素.
有兩個重要的因素
1. 你的責任(客戶)與雲端平台業者的責任義務
1.1 客戶在使用雲端平台的責任義務有哪些,需要明定出來
1.2 業者的雲端平台的責任義務有哪些,也需要明定出來
1.3 明確的瞭解服務的相依性或相關性,包含可能第三方的廠商的軟體,這一點明確的說就是廠商供應鏈的風險管理.
1.4 承襲上一點,了解服務的相關性就可以分出服務的權重(優先權),優先恢復重要的服務
1.5 針對各項的服務/設施/流程有沒有標準的框架跟驗證,並且能定時的檢視針對現況做修正.做到PDCA(Plan/Do/Check?Action)的流程
1.6 有權力能能持續不斷的的稽核及定期評估雲端服務
1.7 能夠在有任何異常時與相關的人員溝通,並能有效傳達及更新現況不管內部或外部客戶/廠商
1.8 良好的備援計畫,不管將服務移動到同一個平台業者不同區域或不同雲端平台業者甚至移回地端機房.並且能夠確實的定期演練,但絕大多數的公司做不到這一點.
2. 非常清楚每項雲端服務的現況以及它的SLA制定計劃,平台服務到了什麼樣程度是無法接受時就要啟動備援計畫.底下有幾個參考
2.1 因為服務異常的罰款與補償
2.2 貴公司的RTO/RPO的標準.
2.3 喪失該雲端服務的完整性或機密性
2.4 您的雲端服務的接觸窗口及事件每個階段的升級流程
2.5 雲端服務的故障轉移以保持合規性
2.6 雲端服務的任何異動都能即時通知相關人員
很多雲端使用者都認為使用雲端服務後再也不需要廠商來支援.但卻忘了整個雲端平台也是架構在別人家.重要的服務不會購買相對應的雲端支援服務.
以這一個案例來看, GCP的企業等級支援會是很重要的.這樣客戶才能保證他們所使用的服務能夠合乎他們自己的服務運作標準.而不是用過去的經驗來等待服務會自己好起來.與雲端平台業者的合作,這一點是非常重要的
GCP的支援方案可以參考如下網址
https://cloud.google.com/support/?tab=tab2
最後有關DR的部分又有哪些需要注意呢?
1. 確認沒影任何服務有single points of failure的存在.包括相關的人員
2. 有能力在一定的時間內(視您的RTO或您對客戶的SLA)移動到另一個區域或雲端業者
3. 在主要的雲端業者所使用到的每一項服務能夠對應到備援的雲端業者.若沒有也要能夠尋求第三方廠商補足.
4. 資料的備份/即時複製到另一個地區或另一個雲端業者的能力(視乎您的RPO)
5. 定期檢視所有雲端業者提供的SLA,來檢視是不是符合本身的需要
雖然沒有一個十全十美的BCDR能對應所有狀況,但以上的方式大概已經足夠涵蓋大部分的狀況.
但最重要的部分還是從您的業務需求來對應整個您提供平台服務是否達標.並需要定期來做.因為前端的業務需求是會一直變動的.