數據中心災難恢復的重要參考指標:RTO和RPO


用來描述和評價數據中心有很多專有參數和指標,通過這些數據可以反映出數據中心的各種運行狀態,其中有兩個關鍵指標必須有所了解:RTO和RPO。RTO和RPO是數據中心災難恢復方面的重要參考指標。現在的數據中心對業務的連續性有苛刻要求,但是故障不可避免,一旦發生了故障就需要啟動備份機制,確保業務的連續性,所以現在數據中心都有較為完善的容災機制,RTO和RPO可以很好地反映出數據中心容災性能如何。這兩個參數是數據中心在運維過程中,一定要重點關注的指標。這個指標的好與差,是基於數據中心現有的各種綜合運行情況評估得出的真實結果,反映當前數據中心在災難恢復方面的修復能力。下面讓我們來詳細認識一下這兩個參數的真面目。

RTO


RTO(RecoveryTimeObjective,復原時間目標)是數據中心可容許服務中斷的時間長度。比如說服務發生后半天內便需要恢復,RTO數值就是十二小時。RTO具體時間長短只是從故障發生后,從數據中心系統宕機導致應用停頓之刻開始,到數據中心系統恢復至可以支持各部門運作之時,此兩點之間的時間段。RTO是反映數據中心業務恢復的及時性指標,表示業務從中斷到恢復正常所需的時間,RTO數值越小,代表容災系統的數據恢復能力越強,數據中心可以部署很多容災系統,來獲取最小的RTO,但這意味着投入大量資金。提升RTO的常用技術有:磁帶恢復、人工遷移、應用系統遠程切換,這幾種技術的RTO的表現如表1所示:

RTO

部署不同的容災技術將獲得不同的RTO值,從業務連續性角度考慮,肯定希望RTO數值越小越好,尤其是很多互聯網數據中心,中斷幾分鍾都會損失數百萬的成交量,這些數據中心往往不惜一切代價要確保數據中心不中斷運行。應用系統的自動切換涉及到數據中心網絡、服務器、存儲等多方面的技術,不管數據中心任何一個位置出現了故障,這些部分都會啟動軟件系統進行切換,可以是設備之間的切換,也可能是集群之間的切換,還可能是異地數據中心切換,通過應用系統自動切換將業務轉移到其它正常的系統中,然后再對故障設備進行排查。將故障原因找到並排除后,再將業務切回到原有系統中,應用系統切換做得好,這個過程不會引起業務的二次中斷,讓業務無感知切換。

RPO


RPO(RecoveryPointObjective,復原點目標)是指數據中心能容忍的最大數據丟失量,是指當業務恢復后,恢復得來的數據所對應時間點,RPO取決於數據中心數據恢復到怎樣的更新程度,這種更新程度可以是上一周的備份數據,也可以是昨天的數據,這和數據備份的頻率有關,為了改進RPO,必然要增加數據備份的頻率才行。RPO是反映數據中心恢復數據完整性的指標。在同步數據復制方式下,RPO等於數據傳輸時延的時間,在異步數據復制方式下,RPO基本為異步傳輸數據排隊的時間。提升RPO的常用技術有:磁帶備份、定期數據復制、異步數據復制、同步數據復制等,這幾種技術的RPO的表現如表2所示:

RPO

RPO指標考驗着數據中心數據復制能力,這並不意味單純增加數據復制的頻率即可,因為應用的高峰時段無法進行備份操作,而且備份數據本身所花費的時間也會過長,數據復制頻率增加到一定程度反而會降低RPO時長。現在出現鏡像技術和快照技術可以有效地改進RPO,往往可以將RPO縮小到秒級。

RTO和RPO指標並不是孤立的,而是從不同角度來反映數據中心的容災能力。我們用下面的圖1說明下RTO和RPO兩個指標在數據中心故障處理過程中的關系:

RTO和RPO

從圖1不難看出,RPO指標來自於故障發生前,而RTO指標來自故障發生后,兩者的數值越小,就能有效縮短業務正常到業務過渡期的時間間隔,單一地提升RTO或RPO指標也可以縮減業務故障到過渡期的時間,具體從哪個指標上來改善,就要結合數據中心的實際情況分析,提升那個指標代價最小,效果更明顯。當然完美的方案當然是RTO和RPO都為零,這表示當故障發生后,系統立即回復,而且完全沒有數據丟失,要達到這樣的目標系統設計是及其復雜的,而且造價也是非常昂貴的,也不一定有這個必要。

RTO和RPO指標對於數據中心非常關鍵和重要,RTO主要考驗數據中心發生故障時,業務切換到容災系統或者備份系統的能力,RPO主要考驗數據中心數據備份能力,尤其是當數據中心發生故障時,仍要具備一定的數據備份能力。但數據中心也不能過分地追求RTO和RPO,因為RTO和RPO越小,意味着投資將越大。而總體投入成本越高,投資回報率將越低,從經濟角度考慮,最好的容災解決方案不一定是效益最好的容災方案,容災方案的總體投入和投資回報也是必須要考慮的設計指標,最佳的解決方案必須是在RTO、RPO、運維及價錢多方面,都能夠達到平衡。所以要理性看待RTO和RPO,一方面我們努力設計一些新的容災技術,另一方面還要簡化容災技術的復雜度和造價,不要一再去追求RTO和RPO指標,有時數據中心有些缺陷,也是一種缺陷美。過度追求RTO和RPO指標,甚至做到兩者都是零,反而讓數據中心更加臃腫,運維難度大,耗費資金過多,數據中心要避免陷入單純追求提升兩個指標的怪圈,結合數據中心實際情況,因地制宜地適當提升兩個指標,才是正道。

 

RTO(Recovery Time Objective,RTO)恢復時bai間目標,指在故障或災du難發生之后,一台電腦zhi、系統、網絡或應用停止工作的最高可dao承受時間。該參數定義了最大可容忍時限,必須在此時限內恢復數據。如果說系統需要在災難發生的12個小時內恢復,那么RTO數值就是12小時。RTO具體時間長短只是從故障發生后,從系統宕機導致業務中斷的那一刻開始,到系統恢復至可以支持各業務正常運作之時,這兩個節點之間的時間段。RTO是反映系統業務恢復的及時性指標,表示業務從中斷到恢復正常所需的時間,RTO數值越小,代表容災系統的數據恢復能力越強。RTO=0就意味着在任何情況下都不允許目標業務有任何運營停頓。
RPO(Recovery Point Object)恢復點目標,指一個過去的時間點,當災難或緊急事件發生時,數據可以恢復到的時間點,是業務系統所能容忍的數據丟失量。例如每天00:00進行數據備份,那么如果今天發生了宕機事件,數據可以恢復到的時間點(RPO)就是今天的00:00,如果凌晨3點發生災難或宕機事件,損失的數據就是三個小時,如果23:59發生災難,那么損失的數據就是約24小時,所以該用戶的RPO就是24小時,即用戶最大的數據損失量是24小時。所以RPO指的是用戶允許損失的最大數據量。這和數據備份的頻率有關,為了改進RPO,必然要增加數據備份的頻率才行。RPO指標主要反映了業務連續性管理體系下備用數據的有效性,即RPO取值越小,表示系統對數據完整性的保證能力越強。
RTO和RPO指標並不是孤立的,而是從不同角度來反映數據中心的容災能力。

 

 

 

災難恢復能力國家標准等級 – 概念和術語 災難:由於人為或自然的原因,造成信息系統嚴重故障或癱瘓,使信息系統支持的業務功能停頓或服務水平不可接受、達到特定的時間的突…

災難恢復能力國家標准等級 – 概念和術語 災難:由於人為或自然的原因,造成信息系統嚴重故障或癱瘓,使信息系統支持的業務功能停頓或服務水平不可接受、達到特定的時間的突發性事件。 災難恢復:為了將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態、並將其支持的與功能從災難造成的不正常狀態恢復到可接受狀態,而設計的活動和流程。 災難備份中心:用於災難發生后接替主系統進行數據處理和支持關鍵業務功能運作的場所。 恢復時間目標RTO(RecoveryTime Objective):災難發生后,信息系統或業
災難恢復能力國家標准等級 – 災難恢復能力等級划分標准

 

 

 

 2.1 第一級
介質存儲:為各種磁介質、光介質和紙介質提供存儲服務。具有高標准的介質存儲環境和設施;
機房環境:根據客戶的要求,災備中心為客戶准備符合國家標准的機房環境。
數據備份:完全數據備份至少每周一次。
滿足國標《信息系統災難恢復規范》(GB/T 20988-2007)災難恢復等級第1級要求;
完全數據備份至少每周一次;
備份介質場外存放;
有介質存取、驗證和轉儲管理制度;
按介質特性對備份數據進行定期的有效性驗證;
在災難恢復時,可享有規范運行的數據中心環境和7 x 24小時專業技術支持。
2.2 第二級:
介質存儲:為各種磁介質、光介質和紙介質提供存儲服務。具有高標准的介質存儲環境和設施;具有7 x 24小時門禁、視像監控和保安管理;提供7 x 24小時響應的媒體存放及獲取服務。
機房環境:根據客戶的要求,災備中心為客戶准備符合國家標准的機房環境,包含符合災難備份原則的機房選址、具備高抗震指標、高承重提升地板的物理建築,具備多路專線供電線路、長延時冗余UPS系統、備用發電機組、專業精密空調系統以及氣體滅火系統等各種基礎設施,具備7 x24小時的嚴格出入授權控制和7 x 24小時的監控錄像措施和嚴格的管理規范,以滿足客戶對災難演練和災難恢復期間的機房環境要求。
網絡備份:根據客戶的要求,災備中心可為客戶預留所需的通信接入端口,以滿足客戶在災難演練和災難恢復期間對通信線路的要求。
災難恢復:一旦災難發生,災備中心可在約定的時間內提供災難備份中心中所需的機房場地,客戶能在此環境中,快速安裝設備系統,利用備份磁帶盡快恢復信息系統的運行。
技術支持和業務恢復環境:災備中心還可為客戶提供所需IT系統的技術支持服務、符合條件的介質存儲場地及業務恢復運作的工作環境及各類辦公后勤環境。
滿足國標《信息系統災難恢復規范》(GB/T 20988-2007)災難恢復等級第2級要求;
可為客戶的媒體數據提供保護;
客戶節省了對機房建設及機房配套設施的大量投資和長時間的建設周期,直接獲得了符合國家標准的機房環境和嚴格規范的機房管理服務;
提供必要的網絡接入端口,大大減少客戶臨時申請線路的長時間周期;
戶可盡快完成有關設備系統的置備和安裝,迅速恢復業務;在災難恢復時,可享有規范運行的數據中心環境和7 x 24小時專業技術支持。
2.3 第三級:
介質存儲:為各種磁介質、光介質和紙介質提供存儲服務。具有高標准的介質存儲環境和設施;具有7 x 24小時門禁、視像監控和保安管理;提供7 x 24小時響應的介質存放及獲取服務。
機房環境:為客戶准備符合國家標准的機房環境,以滿足客戶對災難演練和災難恢復期間的機房環境要求。
主機備份:根據客戶IT系統平台,災備中心為客戶准備符合客戶要求的備份主機及外圍設備,並在指定時間內確保這些設備處於硬件就緒狀態,以滿足客戶災難演練和災難恢復所需的數據處理能力需求。
網絡備份:根據客戶分支機構或服務渠道的通信網絡需求,災備中心可為客戶配備必要的備份通信線路及網絡設備,以滿足客戶在災難演練和災難恢復期間所需的通信網絡要求。
災難恢復:一旦災難發生,災備中心可在約定的時間內提供災難備份中心中所需的機房場地,並提供備用主機和外圍設備,使客戶能夠利用備份磁帶盡快恢復客戶信息系統的運行;同時還為客戶提供必要的通信線路和網絡設備,以便客戶建立所需的通信網絡,盡快恢復業務。
技術支持和業務恢復環境:災備中心還可為客戶提供所需IT系統的技術支持服務、符合條件的介質存儲場地及業務恢復運作的工作環境及各類辦公后勤環境。
滿足國標《信息系統災難恢復規范》(GB/T 20988-2007)災難恢復等級第2級要求;
可為客戶的媒體數據提供保護;
可以使客戶在24-48小時內恢復業務的運作;
節省客戶在備份機房建設和備份主機設備等方面的大量投資;
提供備份網絡接入設備和網絡接口,可以幫助客戶迅速恢復服務渠道和
分支機構的業務運作;
在災難恢復時,可享有規范運行的數據中心環境和7 x 24小時專業技術支持。
2.4 第四級:
數據備份:災備中心可根據客戶信息系統特點,采用業界先進的在線數據備份技術,建立面向客戶的數據備份系統,每天定時或批量傳送備份數據,為客戶實現重要業務數據的遠程備份及其運行管理服務;可支持S/390、Tandem、AS/400、RS/6000、HP、SUN、PC Server等各類IT系統平台。
機房環境:為客戶准備符合國家標准的機房環境,以滿足客戶對災難演練和災難恢復期間的機房環境要求。
主機備份:根據客戶IT系統平台及數據備份要求,災備中心為客戶配備符合客戶要求的備份主機及外圍系統,並對處於運行狀態下的主機及外圍系統進行日常維護,在滿足了客戶對災難演練和災難恢復所需的數據處理能力要求的基礎上,進一步滿足了客戶對業務恢復時間的要求。
網絡備份:根據客戶分支機構或服務渠道的通信網絡需求,災備中心可為客戶配備必要的備份通信線路及網絡設備,以滿足客戶在災難演練和災難恢復期間的通信網絡要求。
災難恢復:一旦災難發生,災備中心已保留有客戶生產系統在線備份的最新業務數據,客戶可在此備份數據的基礎上,使用災備中心的機房場地、備用主機及外圍系統,迅速恢復信息系統的運行;各服務渠道及各分支機構可在建立與備份中心的網絡連接后立即恢復業務運作,進一步提高了客戶業務恢復的速度。
技術支持和業務恢復環境:災備中心還可為客戶提供所需IT系統的技術支持服務、符合條件的介質存儲場地及業務恢復運作的工作環境及各類辦公后勤環境。
滿足國標《信息系統災難恢復規范》(GB/T 20988-2007)災難恢復等級第3、4級要求;
節省客戶在備份機房建設和備份主機設備等方面的大量投資;
享有7 x 24小時備份中心的專業技術支持和專業規范長期運營隊伍支持;
客戶數據得到在線電子傳輸方式的備份,可使客戶數據的丟失范圍控制在24小時之內;
在備份中心為客戶建立了備份的主機系統及網絡系統,並有快速恢復措施,業務恢復時間可控制在8~24小時之內。
2.5 第五級:
數據備份:災備中心可根據客戶信息系統特點,采用業界先進的遠程數據備份技術,建立與生產中心寬帶通訊線路,采用同步或異步方式實時在線備份數據,並可以通過兩階段提交等先進技術手段來進一步保證交易數據的完整性和有效性,為客戶實現重要業務數據的遠程實時備份和客戶的業務連續性提供強有力的保護,並為數據備份系統提供運行管理服務;可支持S/390、Tandem、AS/400、RS/6000、HP、SUN等多種IT系統平台。
主機備份:根據客戶IT系統平台及數據備份要求,災備中心為客戶配備符合客戶要求的備份主機及外圍系統,並對處於運行狀態下的主機和外圍系統進行日常維護,在滿足了客戶對災難演練和災難恢復所需的數據處理能力要求的基礎上,使客戶業務恢復時間進一步的縮短。
網絡備份:根據客戶分支機構或服務渠道的通信網絡需求,災備中心可為客戶配備必要的備份通信線路及網絡設備,並可按不同服務渠道建立備份通信網絡系統,以滿足客戶在災難演練和災難恢復期間的通信網絡要求。
災難恢復:一旦災難發生,災備中心已保留有客戶生產系統實時備份的最新業務數據,客戶可在此備份數據的基礎上,使用災備中心的機房場地、備用主機及外圍系統,立即恢復信息系統運行;各服務渠道及各分支機構也可快速切換到備份中心的通信網絡系統,迅速恢復業務運作,大大縮短了客戶業務全面恢復的時間。
技術支持和業務恢復環境:災備中心還可為客戶提供所需IT系統的技術支持服務、符合條件的介質存儲場地及業務恢復運作的工作環境及各類辦公后勤環境。
滿足國標《信息系統災難恢復規范》(GB/T 20988-2007)災難恢復等級第5級要求;
節省客戶在備份機房建設和備份主機設備等方面的大量投資;
享有7 x 2 4小時備份中心的專業技術支持和專業規范長期運營隊伍支持;
客戶數據得到在線實時傳輸備份,可使客戶數據的丟失范圍控制在秒級到幾小時之內;
備份中心主機與備份網絡均實時運行和處於隨時就緒狀態,業務恢復時間可控制在宣告災難后幾十分鍾至幾小時之內。
2.6 第六級:
數據備份:災備中心可根據客戶信息系統特點和需要,采用業界先進的遠程數據備份技術和集群技術,建立與生產中心寬帶通訊線路,通過先進的集群技術和遠程數據備份技術,實現備份中心與生產中心的系統負載均衡和數據實時同步更新,以實現遠程集群高可用性服務和自動災難切換,為客戶實現重要業務最高等級的業務連續性服務,並為備份系統提供運行管理服務;可支持S/390、UNIX等系統平台。
主機備份:根據客戶IT系統平台及數據備份要求,災備中心為客戶配備符合客戶要求的備份主機及外圍系統,並對處於運行狀態下的主機和外圍系統進行日常維護,滿足客戶對災難演練和災難恢復所需的數據處理能力的高標准要求。
網絡備份:根據客戶分支機構或服務渠道的通信網絡需求,災備中心可為客戶配備實時連通的備份通信線路及網絡系統,並可提供多家電信運營商的備份通信線路,以滿足客戶在災難演練和災難恢復期間對通信網絡的高可靠性要求。
災難恢復:一旦災難發生,災備中心的遠程集群系統將利用實時最新業務數據自動進行系統切換,客戶的分支機構及服務渠道也可自動切換到備份中心的網絡系統,在短時間內恢復客戶信息系統的運作,避免了客戶業務及對外服務出現停頓。
技術支持和業務恢復環境:災備中心還可為客戶提供所需IT系統的技術支持服務、符合條件的介質存儲場地及業務恢復運作的工作環境及各類辦公后勤環境。
滿足國標《信息系統災難恢復規范》(GB/T 20988-2007)災難恢復等級第6級要求;
節省客戶在備份機房建設等方面的大量投資;
享有7 x 24小時備份中心的專業技術支持和專業規范長期運營隊伍支持;
客戶數據得到實時同步更新,保證業務數據的一致性和完整性;
備份中心的遠程集群系統及網絡系統可自動進行負載均衡和系統切換,業務恢復時間可控制在分鍾級。
在容災備份系統中,廣道容災備份系統已達到“國標GB/T 20988-2007規定的災難恢復能力等級指標”第六級(金融機構等重要信息系統要求5級以上)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM