最近剛看完推薦書單中的一本書:《質量全面管控:從項目管理到容災測試》,其中最后一章講述的是災難恢復和容災測試相關的一些內容。
這篇博客,整理了有關災難恢復的一些知識點,以及從其他資料中整理的一些內容,僅供參考。。。
關於災難恢復
1、定義:災難發生后,將生產平台恢復到正常運行的能力。
2、災難恢復資源七要素
下表為銀行業信息系統災難恢復管理規范中,關於災難恢復資源的資源描述,僅供參考:
序號 | 要素 | 考慮要點 |
1 | 備用基礎設施 | 災難備份中心的選址與建設; 備用的機房及工作輔助設施和生活設施; |
2 | 數據備份系統 | 數據備份范圍與RPO; 數據備份技術; 數據備份線路; |
3 | 數據處理系統 | 數據處理能力; 生產系統的兼容性要求; 平時的狀態(處於就緒還是運行); |
4 | 備用網絡系統 | 備用網絡通信設備系統與備用通信線路的選擇; 備用通信線路的使用情況; |
5 | 災難恢復預案 | 明確災難恢復預案的要素: A:整體要求; B:制定過程的要求; C:培訓和演練的要求; D:管理要求; |
6 | 運維管理能力 | 運維管理組織架構; 人員的數量和綜合素質; 運維管理制度; 其他要求...... |
7 | 技術支持能力 | 軟件、硬件和網絡等方面的技術支持要求; 技術支持的組織架構; 各類技術支持人員的數量和綜合素質; |
3、災難恢復能力等級
下表為銀行業信息系統災難恢復管理規范中,關於災難恢復能力划分的描述,僅供參考:
等級 | 支持能力 | 能力描述 | 特點 |
一 | 基本支持 | 數據備份系統能保證每周至少進行一次數據備份,備份介質能夠提供場外存放 | 定時災備,異步傳輸 |
二 | 備用場地支持 | 滿足等級一的基礎上,要求配備災難恢復所需的部分數據處理設備; 或災難發生后能在預定時間內調配所需的數據處理設備到備用場地,要求配備 通信線路和相應的網絡設備; 或災難發生后能在預定時間內調配所需的通信線路和網絡設備到備用場地; |
|
三 | 電子傳輸和設備支持 | 每天至少進行一次完全數據備份,備份介質場外存放,同時每天多次利用通信 網絡將關鍵數據定時批量傳送至備用場地 |
周期性災備,異步傳輸 |
四 | 電子傳輸和完整設備支持 | 滿足等級三的基礎上,要求配置災難恢復所需的所有數據處理設備、通信線路 和相應的網絡,並且處於就緒或運行狀態 |
|
五 | 實時數據傳輸及完整設備支持 | 每天至少進行一次完全數據備份,備份介質場外存放; 要求采用遠程數據復制技術,利用通信網絡將關鍵數據實時復制到備用場地; |
實時災備,同步傳輸 |
六 | 數據零丟失和遠程集群支持 | 要求實現遠程實時備份,數據鈴丟失; 備用數據處理系統具備與生產環境一致的處理能力,軟件集群且可以隨時切換; |
PS:等級從低到高,所需要投入的資源和時間成正比例上升!
4、災難恢復注意事項和原則
注意事項 | 原則 |
對業務運營的影響 | 應盡量避免或降低對正常業務運營的影響 |
關鍵的業務周期 | 測試活動應盡可能安排在非業務高峰期,以避免或降低風險 |
分離關鍵的組件 | 如果測試對特定業務的中斷無法避免,那應當在一個可接受的時間段內,將所涉及的服務組件與所有會受影響 的業務進行隔離,然后進行測試 |
保證足夠的人員支持生產系統 | 完整的測試應當被分為多個可管理的批次,目的是保證有足夠的資源維護和支持生產系統 |
恢復流程准備就緒 | 測試之前,管理流程開發完成,要回復的系統架構組件和應用相關的災難恢復方案與恢復步驟應當已編寫完成 並進過適當的測試 |
對真實場景的模擬程度 | 測試的場景設計應當盡可能反應最壞的災難情況 |
測試期間的容災保護程度 | 測試應當盡可能的不要降低生產系統的榮在保護程序; 如果無法避免,應考慮采用一些措施保證測試期間生產系統的容災保護備份 |
應用系統的分組 | 具有高度依賴性和多個應用,應當盡可能安排在同一次測試中 |
5、災難恢復的關鍵指標
下表為容災恢復的一些關鍵指標描述以及特點,僅供參考:
指標 | 描述 | 與災難恢復能力 等級的關系 |
常用提升技術 | |
RTO-Recovery Time Objective:恢復時間目標 關注點:業務恢復時間,即可容許服務中斷的時間長度 |
軟件系統宕機導致業務停頓開始, 到軟件系統恢復至可支持各部門 業務恢復運營,兩點間的時間段 |
1級:2天以上 2級:>24小時 3級:>12小時 4級:數小時-2天 5級:數分鍾-2天 6級:數分鍾 |
容災技術:時長 磁帶恢復:日級 人工遷移:小時級 系統遠程切換:秒級 |
|
RPO(Recovery Point Objective):數據恢復點目標 關注點:損失的數據量,即恢復的數據所對應的時間點 |
從系統和數據而言,要實現能夠恢復 到可以支持各部門業務運營,使系統 及生產數據應恢復到何種更新程度 |
1級:1-7天 2級:1-7天 3級:數小時-1天 4級:數小時-1天 5級:0-30分鍾 6級:0 |
容災技術:時長 磁帶備份:日級 定期數據復制:小時級 異步數據復制:分鍾級 同步數據復制:秒級 |
|
NRO(Network Recovery Object):網絡恢復目標 | 災難發生后,網絡切換需要的時間 | |||
DOO(Degrade Operation Object):降級運作目標 | 恢復完成后到第二次故障或災難的 所有保護恢復以前以前的時間間隔, 反映了系統發生故障后的降級運行的能力 |
PS:RTO和RPO指標對於數據中心非常關鍵和重要!
RTO主要考驗數據中心發生故障時,業務切換到容災系統或備份系統的能力;RPO主要考驗數據中心的數據備份能力,尤其是當數據中心發生故障時,仍要具備一定的數據備份能力。
但數據中心不能一味的追求RTO和RPO指標,因為這兩個指標數值越小,投入越大;而總體投入成本越高,投資回報率越低。
最佳的解決方案是在RTO、RPO、運維及成本多方面綜合考慮,尋求到一個合適的平衡點。
理性看待容災恢復指標,結合實際情況,提升兩個指標才是最佳方案。