數據中心網絡高可用技術


數據中心網絡高可用技術

高可用性,金融數據中心建設中最受關注的問題之一。高可用性設計是個系統工程,其內容涉及構成數據中心的四個組成要素(網絡、計算、存儲、機房基礎設施)的多方面內容,本文聚焦網絡系統,闡述了多種網絡高可用技術在數據中心的部署最佳實踐。

一、高可用性的定義

系統可用性(Availability)的定義公式為:

Availability = MTBF / ( MTBF + MTTR ) × 100%

MTBF(Mean Time Between Failure),即平均無故障時間,是描述整個系統可靠性(reliability)的指標。對於一個網絡系統來說,MTBF是指整個網絡的各組件(鏈路、節點)不間斷無故障連續運行的平均時間。

MTTR(Mean Time to Repair),即系統平均恢復時間,是描述整個系統容錯能力(fault-tolerant capability)的指標。對於一個網絡系統來說,MTTR是指當網絡中的組件出現故障時,網絡從故障狀態恢復到正常狀態所需的平均時間。

從公式可看出,提高MTBF或降低MTTR都能提高網絡可用性。造成數據中心網絡不可用的因素包括:設備軟硬件故障、設備間鏈路故障、維護升級、用戶誤操作、網絡擁塞等事件。針對這些因素采取措施,如提高軟硬件質量、減少鏈路故障、避免網絡擁塞丟包、避免用戶誤操作等,使網絡盡量不出故障、提高網絡MTBF指標,也就提升了整網的可用性水平。然而,網絡中的故障總是不可避免的,所以設計和部署從故障中快速回復的技術、縮小MTTR指標,同樣是提升網絡可用性水平的手段。

在網絡出現故障時,確保網絡能快速回復的容錯技術均可以歸入高可用技術。常用的網絡高可用技術可歸為以下幾類:

l         單設備的硬件冗余:冗余電源、冗余風扇、雙主控、板卡支持熱插拔;

l         物理鏈路捆綁:以太網鏈路聚合,基於IRF的跨設備以太網鏈路聚合;

l         二層冗余路徑:STP、MSTP、SmartLink;

l         三層冗余路徑:VRRP、ECMP、動態路由協議多路徑;

l         故障檢測:NQA、BFD、OAM、DLDP;

l         不間斷轉發:GR、熱補丁升級;

l         L4-L7多路徑:狀態熱備、非對稱路徑轉發。

在進行高可用數據中心網絡規划時,不能只將上述技術進行簡單疊加和無限制的冗余,否則,一方面會增加網絡建設整體成本,另一方面還會增加管理維護的復雜度,反而給網絡引入了潛在的故障隱患。因此在進行規划時,應該根據網絡結構、網絡類型和網絡層次,分析網絡業務模型,確定數據中心基礎網絡拓撲,明確對網絡可用性最佳的關鍵節點和鏈路,合理規划和部署各種網絡高可用技術。

ECMP(Equal-cost multi-path)

ECMP是一個逐跳的基於流的負載均衡策略,當路由器發現同一目的地址出現多個最優路徑時,會更新路由表,為此目的地址添加多條規則,對應於多個下一跳。可同時利用這些路徑轉發數據,增加帶寬。ECMP算法被多種路由協議支持,例如:OSPF、ISIS、EIGRP、BGP等。在數據中心架構VL2中也提到使用ECMP作為負載均衡算法。

對於未開啟ECMP的網絡來說,無法充分利用路徑資源。如圖1所示,假設從S0到Server的為S0-S1-S2-S4即圖中橘色路徑,那么即便存在另一條等價路徑,藍色路徑,路由器仍然會每次選擇第一條橘色路徑轉發數據。除非此條路徑發生擁塞,才會重新選擇路徑。

當開啟ECMP功能時,便可同時利用兩條路徑,進行基於流的負載均衡,例如主機A到Server的數據流選擇橘色路徑,主機B到Server的數據流選擇藍色路徑。

GR(Graceful Restart)

GR技術產生的背景:
1、分布式架構並支持不間斷轉發技術的設備,要求控制平面和數據平面分離。
2、控制平面負責路由計算、表項下發等;數據平面根據控制平面下發的轉發表項進行數據轉發。
3、在主備引擎切換時,備引擎上有數據平面信息,可以快速接替主引擎完成數據轉發;但備引擎無控制面信息(比如動態路由數據庫、鄰居關系等),那么將導致其鄰接設備檢測到本設備動態協議中斷,鄰接的設備動態路由重新收斂,導致整網路由黑洞或路由旁路。
4、動態路由的收斂時間將是分鍾級別的,無法滿足不間斷轉發需求。
GR的原理:
Graceful Restart(優雅重啟),主要是為了實現在協議的重新啟動過程中數據轉發不間斷。在管理板主備切換過程中,GR功能使動態路由鄰居的路由轉發表項保持住,待新的鄰居協商收斂完成后再進行表項刷新,使得網絡拓撲保持穩定,維持轉發表;保障業務不中斷。
GR的兩個角色:
Restarter:要執行優雅重啟的設備
Helper :輔助Restarter完成優雅重啟,是Restarter的鄰接設備

二、數據中心網絡高可用部署方案

1.  數據中心服務器區典型組網

 

 

 

 

 

圖1.  高可用扁平化架構典型組網

圖1是典型的數據中心服務器區分層網絡拓撲(接入、匯聚、核心)。接入層交換機為服務器提供高可用網絡接入。匯聚層設備做為服務器的網關,並通過部署應用優化設備(如服務負載分擔設備)以減輕服務器的處理負擔,並提高服務器系統的可用性。匯聚層部署的安全設備(如防火牆)做為整個服務器區的安全邊界,為服務器提供訪問控制。建議在匯聚層采用與交換機一體化的應用優化或安全插板部署方式,以代替傳統的獨立盒式設備。采用插板方式的好處是降低能耗、減少布線復雜性,從而提升網絡的整體可用性。

2.  網絡接入層高可用部署方案

接入層到匯聚層有4種連接方式,如圖2所示,分別為:倒U形接法(拓撲1)、U形接法(拓撲2)、矩形接法(拓撲3)和三角形接法。不同類型的接法以二層鏈路的物理拓撲為評判依據,比如對於矩形接法(拓撲3),接入交換機之間、接入交換機與匯聚交換機之間、匯聚交換機之間均以二層鏈路互聯,並且兩台接入交換機與兩台匯聚交換機構成了矩形的二層互聯拓撲。

 

 

 

圖2.  高可用擴展多級架構典型組網

接入層的四種拓撲的比較:

拓撲

優點

缺點

備注說明

1

倒U形

不啟用STP,網絡管理簡單。

VLAN可以跨匯聚層交換機,服務器二層的擴展靈活。

匯聚交換機故障時,造成其同側接入交換機上的服務器不可達,無法實現高可用接入

 

2

U形

不啟用STP,網絡管理簡單。

接入交換機與匯聚交換機之間有冗余鏈路。

VLAN不能跨匯聚交換機,服務器部署不靈活。

接入交換機間鏈路故障時,VRRP心跳報文無法傳遞,網絡處於不穩定狀態。

 

3

矩形

接入交換機與匯聚交換機之間有冗余鏈路。

VLAN可以跨匯聚層交換機

當接入交換機上行鏈路故障時,所有流量將從另一側的交換機上行,網絡收斂比變小,網絡易擁塞,降低了網絡可用性。

 

4

三角形

接入交換機與匯聚交換機之間有冗余鏈路、冗余路徑。

VLAN 可以跨匯聚層交換機,服務器部署靈活

生成樹計算比矩形拓撲復雜。

推薦方式

表1.  四種拓撲連接方式的對比

由上表可以看出,三角形組網(拓撲4)提供了更高的接入可用性以及更靈活的服務器擴展能力,所以對於數據中心獨立服務器的接入,建議采用三角形組網方式。

由於接入層三角形組網存在二層環路,所以需要在交換機上使能多生成樹協議MSTP(Multiple Spanning Tree Protocol)。匯聚層交換機(或匯聚交換上的L4/L7層設備)部署虛擬路由器冗余協議(virtual router redundancy protocol, VRRP),並將VRRP組的虛擬IP地址作為服務器網關。對於接入層這種典型的MSTP+VRRP部署方式,還應關注以下幾點:

l       利用MSTP多實例特性,合理規划VLAN與實例映射關系,實現業務流量的負載分擔。如圖3,VLAN50對應的STP實例的根橋在AGG_SW2(VLAN50在ACC_SW1與AGG_SW1、及ACC_SW2與AGG_SW1之間的轉發被阻塞),VLAN30對應的STP實例的根橋在AGG_SW1(VLAN 30在ACC_SW1與AGG_SW2、ACC_SW2與AGG_SW2之間的轉發被阻塞)。

l       規划多個VRRP組,實現服務器網關的備份和負載分擔。如圖3,在正常轉發時匯聚交換機(AGG_SW1、AGG_SW2)分別作為VLAN30和VLAN50的VRRP Master設備。如匯聚層部署了L4/L7設備(如防火牆),則在L4/L7設備上規划VRRP組,並將VRRP的虛擬IP作為服務器的網關。

 

 

 

圖3.  接入層MSTP+VRRP部署

l       在匯聚交換機上指定根橋。恰當放置根橋不但可優化生成樹協議所選擇的路徑,還可以為數據提供明確的路徑,明確的路徑使排錯和配置網絡變得更為容易。通過在匯聚層交換機上手工配置根橋的主、備策略,確保生成樹在二層鏈路形成最佳的樹型拓撲。

l       匯聚交換機上聯的三層接口配置“STP Disable”命令。對於不需要參與STP的端口應關閉STP特性,由此可節省設備的CPU資源和BPDU報文的發送范圍,以降低網絡發生故障的幾率。

l       接入交換機與服務器直連端口設置為“邊緣端口”。網絡拓撲變化時,邊緣端口不會產生臨時環路。因此,如果將服務器接入端口配置為邊緣端口,則該端口可以快速遷移到轉發狀態,降低網絡的故障收斂時間。。

l       接入交換機與服務器相連的端開啟“BPDU保護”功能,如圖3。邊緣端口正常情況不應收到生成樹協議的配置消息,如有人偽造配置消息惡意攻擊設備,會引起生成樹重新計算,啟動BPDU保護功能可防止這種攻擊,避免發生網絡拓撲震盪。

l       接入交換機上行端口開啟“環路保護”功能,如圖3。如果接入交換機上行端口發生鏈路擁塞或者單向鏈路故障時,環路保護功能會將根端口的角色變為指定端口,端口的狀態為Discarding;原來被阻塞端口同樣也變為指定端口,狀態為Discarding 狀態,不轉發報文,從而不會在網絡中形成環路,避免引起網絡拓撲震盪。

l       匯聚交換機(根橋和備份根橋)與接入交換機互聯的端口開啟“root保護”功能,如圖3。當開啟“root保護功能”的端口收到優先級高的配置消息時,該端口的狀態將被設為Discarding,不再轉發報文。當足夠長的時間內沒有再次收到更優的配置消息時,端口會恢復正常狀態。這種功能可避免錯誤的配置或網絡攻擊造成匯聚交換機失去根橋地位而引起網絡拓撲變化。

l       交換機上開啟“TC-BPDU保護”功能。為了避免交換機頻繁收到TC報文而去頻繁刪除MAC和ARP表項,繼而引起CPU繁忙並造成網絡業務中斷的情況,應在交換機上開啟TC保護功能。

l       在交換機上開啟loopback-detection(端口環回檢測)功能,防止錯誤的配置或連接形成端口自環。

l       匯聚與接入層交換機相連的端口避免配置trunk all,只允許使用的Vlan通過,如圖3中(只允許Trunk VLAN30和Trunk VLAN50),各個雙歸屬環用Vlan隔開,防止一個環上的廣播泛到另一個環上去。

3.  網絡匯聚層高可用部署方案

網絡匯聚層作為網絡接入層的流量會集點和服務器的網關,需要部署防火牆做為整個服務器區的安全控制邊界,還需要部署應用優化設備(服務負載分擔、SSL卸載等)用以減輕服務器的負擔,提高應用響應速度。建議在服務器群區域網絡匯聚層采用集成在機架式交換機上的安全和應用優化多業務板卡,優點在於簡化機架布線、提高系統可用性、降低設備整體功耗。

圖4是匯聚層交換機上部署防火牆插板(FW)和負載分擔插板(LB)時的路由設計。FW板卡作為服務器網關,采用三層路由模式為訪問服務器的流量提供轉發,並提供攻擊防御、策略管理等功能。LB板卡采用單臂旁掛部署方式。缺省網關指定在匯聚交換機上。外部用戶訪問虛服務的流量在LB板卡上進行負載分擔與源目的地址變換后,再通過FW訪問內部服務器。

 

 

 

圖4.  匯聚層FW+LB的部署

圖5是匯聚層FW與LB的雙機高可用部署方案。核心與匯聚交換機間運行OSPF協議。當任一節點整機或鏈路故障時,網絡依靠OSPF進行故障收斂。兩個LB之間運行VRRP,匯聚交換機將去往服務器IP地址的下一跳指向LB的VRRP虛IP地址,當LB主路徑板卡故障時,通過VRRP可以切換到備份卡上繼續流量轉發。兩個FW之間也運行VRRP,FW主路徑板卡故障時,通過VRRP可以切換到備份卡上恢復流量。匯聚交換機之間需要Trunk V100/V400/V500

 

 

 

圖5.  匯聚層FW+LB的部署

匯聚層到核心層間采用OSPF等動態路由協議進行路由層面高可用保障。常見連接方式有兩種,如圖6。拓撲1采用了三角形連接方式,從匯聚層到核心層具有全冗余鏈路和轉發路徑;拓撲2采用了四邊形連接方式,從匯聚層到核心層沒有冗余鏈路,當主鏈路發生故障時,需要通過路由協議計算獲得從匯聚到核心的冗余路徑。所以,三角形拓撲的故障收斂時間較小,但三角形拓撲要占用更多的設備端口,建網成本較高。

 

 

 

圖6.  匯聚層與核心層的拓撲

4.  IRF虛擬化技術高可用最佳實踐

 

 

 

圖7.  傳統架構服務器群網絡拓撲與IRF架構服務器群網絡拓撲對比

對於接入層而言傳統架構為保證網絡高可用性通常采用MSTP+VRRP,這種組網需要在接入交換機與匯聚交換機間運行MSTP協議,管理和維護較復雜。但當接入交換機和匯聚交換機都采用IRF架構之后,可將每兩台交換機(也可以是多台)配置成一個IRF堆疊組,兩台匯聚交換機也配置成一個堆疊組,接入交換機與匯聚交換機之間通過捆綁鏈路連接,如圖7。從邏輯上看,一個堆疊組就是一台設備,因此接入交換機和匯聚交換機間不存在二層環路,可以避免MSTP的配置管理,簡化網絡設計。

圖8是采用IRF設計時的網絡高可用性切換方式。情況A是正常轉發路徑,服務器流量經過網絡接入層和匯聚層的IRF堆疊組。情況B,當接入層IRF堆疊組的一台交換機出現故障,服務器網卡進行切換,通過IRF另一台交換機即可恢復網絡通信,而匯聚層設備無需任何變化,數據流仍從同一聚合鏈路進入網絡。情況C,匯聚層設備出現單台故障,服務器不感知,只由接入交換機將流量轉發到聚合鏈路,匯聚層存活的交換機感知的仍是從現有聚合鏈路接收數據流。情況D,發生捆綁鏈路故障,交換機會將數據流轉發到捆綁組存活鏈路上,對於IRF交換機組來說,數據流轉的邏輯接口並未改變。

 

 

 

圖8.  IRF組網的HA部署

三、             結束語

對數據中心而言,高可用性永遠是必不可少的重要需求。數據中心的核心是業務數據,網絡作為承載層需要保證運行於其上的數據的安全性與可用性,尤其是在網絡節點鏈路發生故障情況下要確保業務可用與數據零丟失。從傳統的環路冗余到現在的IRF堆疊,數據中心網絡高可用技術將會不斷優化進步,更好的滿足高速發展的數據中心業務應用需求。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM