基於EVPN+VxLan的虛擬化網絡設計


By 高亮@銳捷網絡股份有限公司

https://comet-project.gitbooks.io/cto-tech-manual/content/chapter1/gaoliang.html

 

摘要:本文針對互聯網行業普遍采用的虛機\/容器等虛擬化技術,提出了基於硬件網絡設備的Overlay解決方案,通過采用EVPN+VxLan的分布式架構設計,實現更高性能、更加標准化的網絡設計,在自有IDC內搭建類公有雲VPC的私有雲網絡,更好的支撐業務的快速部署和頻繁變更,滿足虛機\/容器等計算虛擬化技術的靈活應用。

基於EVPN+VxLan的Overlay技術適合互聯網公司新一代數據中心的建設,通過借助SDN技術解決網絡運營的自動化及運維的可視化,降低部署和運維的成本。

前言

業務的爆發式增長是互聯網行業的一個重要特點,網絡基礎設施為了能夠快速支撐業務的快速發展,網絡技術本身也發生了日新月異的變化,而且新技術也越來越快的被普遍接受並快速地投入到生產環境。從計算虛擬化的角度,以Openstack為代表的虛擬化技術已經廣泛的應用到業務網絡,通過KVM\/Xen等技術實現服務器資源利用的最大化,節省成本的同時提高了業務靈活性。而近一年來,Docker技術也已經真正的從被觀望的狀態轉為真正的生產體系,這在京東、蘑菇街等知名互聯網公司相關報告中都可以看到。

雖然虛機\/容器等計算虛擬化技術已經被大家普遍應用,但是業內還是普遍沿用了傳統網絡架構來支持虛機\/容器的部署,要么虛機\/容器只能固定在單台TOR交換下面,不能實現單子網內的虛機\/容器跨機櫃的靈活部署;要么采用大二層組網架構,雖然虛機\/容器可以在IDC內靈活部署,但是廣播域問題及組網的可靠性又會隨着服務器規模的增加越來越凸顯。

以阿里、騰訊、美團、金山雲等國內大牌公有雲公司的產品越來越豐富、成熟,在業務發展初期,的確可以幫助我們快速進行業務的部署,輕松實現業務的彈性伸縮,但是隨着業務規模的擴大,從數據安全及成本角度,大家都會逐漸建設自有的IDC網絡,但是如何在公司內部搭建類似公有雲的私有雲網絡,讓基礎網絡與業務真正脫耦,把基礎網絡變成真正的網絡資源池,基礎網絡架構部門更像一個獨立的資源提供方,為上層各個業務產品、業務部門提供中立、通用,並且安全、可靠。而共有雲中VPC的能力,是實現多業務、多租戶隔離的重要手段,這是私有雲網絡搭建的一個重要基礎能力。

目前業界的普遍思路,把基礎網絡架構的Underlay網絡和Overlay網絡實現分離已經達成一種趨勢。Underlay網絡作為基礎承載網絡,與業務脫耦,主要負責Overlay網絡的可靠、高性能轉發;Overlay網絡面向業務,提供靈活的網絡部署。

Overlay網絡的實現有很多種技術,比如VLAN、Vxlan、STT、Nvgre等,而Vxlan網絡自身又分為軟件實現和硬件實現,從Vxlan 網關的角度,又分為集中式和分布式,而Docker自身也有了多種Overlay解決方案。

在傳統思路下,互聯網公司軟件開發能力強,創新能力強,更習慣通過軟件方式實現Overlay網絡,比如依托OVS的實現,或者依托於一些開源的Overlay方案進行二次開發、優化。從普遍的結果來看,通過軟件方式實現Overlay網絡主要有三個層面的問題:

  • 性能低:雖然軟件開發實現的靈活性最高,開源依據自身業務特點、運維能力等特點靈活進行二次開發定制,可以開發量體定制的方案,這在技術探索初期不會有明顯的問題,但是當業務量增長到一定級別,軟件方式實現的Overlay網絡會出現性能偏低的問題,單機吞吐能力無法進一步提高,不能充分發揮硬件資源的能力,造成浪費,影響業務本身。

  • 成本高:無論是自主創新的Overlay網絡,還是依據開源資源進行二次開發、優化,都需要投入大量的研發資源,包括人力和時間,這對公司本身就是非常大的成本投入。而且隨着業務規模的增長及新業務的開發,需要持續投入資源進行軟件的開發、優化。

  • 兼容性差:從業界普遍的角度來看,每家都投入大量相關資源進行了自主定制開發,但是總體上看是一種重復投資。即使部分企業願意開源自主定制、優化的Overlay方案,也難以通過社區方式形成規模效應,真正推動一種軟件方案的標准化,並持續優化、改進。

本文重點討論基於硬件網絡設備實現的EVPN+Vxlan的Overlay方案,並討論其運營和運維自動化的實現。

借助業界標准的交換機芯片實現的Overlay網絡,可以借助多廠商的力量實現技術的標准化,並借助網絡設備廠商在多企業、多環境的規模部署和應用,也會不斷改進、優化整體方案,實現更強的通用性,在可靠性、穩定性上也會不斷改進。依托標注網絡設備實現,從成本角度,互聯網公司自身投入最小,可控性更高。

 

互聯網業務快速發展對網絡技術的挑戰

在國家推行的“大眾創業、萬眾創新”的政策號召下,國內整個互聯網都保持着持續、健康的成長。

從CNNIC 2016年1月發布的《中國互聯網發展狀況統計報告》中可以看到,截止到2015年12月,中國網民的規模達6.88億,從2010年到2015年,每年網民穩定持續增長,在2015年的互聯網的普及率達到50.3%。而中國網站的數量在2015年相比2014年暴增近20%。從中國國際出口帶寬的角度分析,2015年國際出口帶寬為5392Gbps,年增長率為30.9%。從上面的數據可以看出,整體互聯網行業發展的仍然十分健康成長。

在整個互聯網發展過程中,基礎網絡網絡技術及相關產品也被推動快速發展。無論是網絡設備還是相關的網絡技術,實際上是被上層業務推動的。主要體現在以下幾個方面:

  • 業務驅動:當前的互聯網行業的特點是業務規模的快速發展,對於一家互聯網公司來講,最直接的體現是需求的服務器數量快速增加。在業務爆發期,每年對服務器新增的需求是非常巨大的,這對基礎架構的團隊來講,就需要基礎網絡快速的交付,以此支撐業務的快速上線、擴容,並且要求基礎網絡能夠滿足適應業務的快速變更,這對於初創公司來講更為明顯。

  • 數據驅動:從數據存儲的角度,在業務規模較小時,本地化或集中的數據存儲就可以滿足業務的開展,整個基礎網絡中主要是南北向的流量,服務器千兆接入就可以滿足業務並發的要求,但是隨着業務的發展,業界越來越多的采用基於類ceph的分布式存儲,而且基於Hadoop和Swarm類的數據挖掘集群也會被廣泛的部署,這時網絡中東西向的流量會遠大於南北向流量,對基礎網絡的轉發能力提出更高要求,這時服務器千兆接入已經不能滿足業務要求,很多公司已經普遍升級為萬兆接入,個別公司已經開始探索嘗試服務器25G的接入。

  • 計算技術驅動:從計算虛擬化的角度,以KVM\/Xen為代表的虛機技術及以Docker為代表的容器技術已經越來越多的被規模應用部署。虛機\/容器本身對運維的價值不在這里展開,為了進一步充分發揮虛機\/容器的價值,對基礎網絡的能力也有新的要求,如要求提供可以任意擴展的超大規模二層網絡,支持虛機\/容器的隨意部署、遷移,甚至包括跨IDC的部署。還有多租戶隔離的問題,包括IP地址的重疊。

  • 運維驅動:站在運維的角度,在上述三個驅動下,以前運維的團隊只需要面對少量服務器及簡單的架構進行傳統的運維,但是隨着服務器數量的增加、網絡流量的增加、虛機\/容器的大量部署,現在運維團隊要面對的已經是一個交織復雜的體系,而運維團隊資源永遠都是有限的,所以如何在新的形勢下以現有資源支撐整個運維的工作,那么就需要從架構設計的角度,考慮借助新技術來簡化運維工作、降低運維成本、提升效率。

當前網絡架構的設計已經不簡單,但從業界看,已經趨於統一,總結起來就是以計算虛擬化為核心,考慮成本和效率的提前提下實現架構的場景化、標准化、自動化和可視化。

  • 場景化:對於IDC基礎網絡架構會涉及很多場景,比如內網、外網、DCI、WAN等,需要基於場景,從業務角度考慮網絡架構的差異。在一些大型的互聯網公司,應從組織架構上基於場景進行了划分。

  • 標准化:一個網絡架構的設計,對於任何公司來講都是十分謹慎,因為一旦確定采用一個新網絡架構,都對上層業務、下層運維產生至關重要的影響。而一個新網絡架構也不可能一次性就能夠考慮完美和固定不變的,總是需要在業務運行中不斷的進行完善,這就需要一個標准化設計,並基於此不斷完善,滿足未來2~3年的業務發展。另外,標准化設計的重要性在於簡化架構設計,實現快速交付,特別是在業務突發時,可以基於標注化的架構進行快速的復制,進行快速的實施。最后,標准化架構是實現自動化的重要基礎,只有在標准化的架構下,才能在運營和運維方便進行自動的實現。

  • 自動化:自動化價值主要體現在日常業務運營和運維上,通過自動化大大降低了對人的依賴。從日常運營的角度,基於Overlay的業務承載網絡可以隨着上層業務的變更實現網絡配置的自動下發,實現類似公有雲的產品體驗,不再需要通過工單的方式由人單獨去針對業務的變更進行網絡配置的修改。從運維自動化的角度,當基礎網絡出現故障,被投訴某業務流出現問題,如丟包時,也可以通過自動化的手段,聯動運維平台一鍵排查,甚至開發給業務部門聯動業務系統自動排查網絡層故障,快速定位、解決。

  • 可視化:主要有兩個方面,一個是基礎網絡面向業務部門,提供一個可視化的可用資源Portal,類似公有雲的業務平台,提高產品的使用體驗;另外一個是面向運維部門,所有基礎網絡的管理,特別是虛擬的Overlay網絡,需要一個直觀的可視化平台,針對網絡內的真實轉發路徑、丟包情況、時延抖動等相關因素全部通過圖形化的界面呈現出來,讓運維人員直觀的看到全局情況,提高影響能力。

基於以上描述的架構合計思路,具體到落地,核心基礎就是要實現基礎網絡的Underlay與Overlay分離的設計。

所謂的Underlay網絡,就是傳統的那張看得見、摸得着的物理網絡,由一系列的物理的交換機、光纖、網線等設備連接起來。對於Underlay網絡,在新的架構設計中,要與業務網絡脫耦,所有業務層面的變更與Underlay網絡無關,通過Underlay網絡架構的標准化,實現對業務的通用、適配,利用最簡單、最成熟的網絡技術確保基礎網絡的可靠、穩定,並通過一些技術手段簡化基礎網絡的運維。

對於Underlay網絡不是本文討論的重點,簡單總結看,在Underlay網絡中,主要采用Clos的無阻塞架構設計,也稱為Fabric架構。可以采用二級組網或三級組網,目前看到比較多的是二級組網,即Spine+Leaf,國內騰訊、百度、美團等互聯網公司有較多采用,而三級組網相比二級組網,增加了匯聚設備,以Pod為單位進行橫向擴展,國內阿里有采用這種架構,國外的Facebook也是這種組網。

Overlay網絡技術的實現

講到Overlay網絡,屬於新架構下的業務承載網絡,面向業務,提供靈活的網絡支撐。Overlay技術其實就是在Underlay網絡架構上疊加的虛擬化的技術模式,可以不對基礎網絡進行大規模修改的情況,實現了業務的承載。Overlay可以理解為一種隧道的封裝技術,類似IPv4inIPv4、GRE、MPLS等,相當於在源網絡和目的網絡之間拉了一根“光纖”,只不過Overlay技術是通過點到多點的隧道封裝,完全忽略中間網絡的結構和細節,以此實現二層網絡跨三層的任意延展,把中間的網絡虛擬成一台“巨大無比的二層交換機”,實現虛機\/容器在網絡中的任意部署及隨意遷移。

對於Overlay技術的產生,主要是滿足計算虛擬化的深度部署,因為從業務角度,業務的快速發展必然會有頻繁的業務變更,同時從滿足資源共享、資源調度、容災備份、動態整合等角度,會涉及同業務、同子網的虛機\/容器跨多宿主機的任意部署或遷移,實現業務的彈性伸縮。對於這種場景,意味着同子網內的虛機\/容器會借助這個二層網絡散布在網絡內的任何角落,而在虛機\/容器遷移過程中需要有兩個基礎能力才能保證業務的實現,即虛機\/容器的IP和MAC不能改變,同時虛機\/容器網關的IP和MAC也不能改變,這樣才能實現業務的任意擴展及遷移。

針對上述的大二層方案,傳統的網絡技術無法滿足要求。

基於傳統的網絡虛擬化技術,在大量使用虛機\/容器的網絡中,意味着更多的虛機,在大型數據中心中,意味着上百K數量的主機存在,那么就需要一張更大的MAC地址表,而傳統網絡技術都存在一定的問題。

VLAN+STP模式:

  • VLAN也是網絡分片的虛擬化,小規模部署可以應對多租戶的網絡隔離
  • 單一大二層網絡導致TOR的MAC地址表項超出網絡設備能力
  • 基於STP的防環路協議不能充分利用鏈路帶寬
  • STP的收斂性能也限制了網絡規模(100台交換機以下)
  • 廣播、未知單播的整網泛洪,導致網絡的可用性

網絡設備虛擬化:

  • 解決傳統STP技術的缺點,簡化網絡拓撲,提高可靠性
  • 強制的拓撲形狀限制網絡規模,靈活性差,適合小規模網絡
  • 存在裂腦風險

Trill\/SPB\/FabricPath類技術:

  • 此類技術通過類似MACinMAC的方式進行二層網絡的擴展,但是非標准化實現,而且缺乏規模應用,非主流
  • 關鍵是需要全新的硬件進行升級

因為傳統技術存在種種弊端,新一代的Overlay技術隨之產生。

Overlay技術,在一種網絡架構上疊加的虛擬化技術,借助“隧道”實現二層網絡的打通,對Underlay網絡沒有任何特殊要求,只要IP可達即可,所以Underlay網絡多采用三層組網,規避環路的產生,通過OSPF\/BGP等路由協議進行網絡的收斂,提高可靠性,並可以充分借助ECMP等價路由來充分利用多倆路的帶寬。

Overlay技術有多種,比較常見的是Vxlan、NVGRE、STT三種,具體差別如下表:

從實際部署的角度,應該說Vxlan技術是大家主流的選擇。

Vxlan(Virtual eXtensible Local Area Network),主要特點如下:

  • 標准化:基於RFC7348
  • 擴展性強:采用24bit表示VNI(Vxlan Network ID),支持16M的網段\/租戶
  • 靈活性好:采用MAC in IP的封裝方式,可以跨越三層網絡,無狀態,二層網絡任意延展
  • 性能高:可以充分利用Underlay網絡中的ECMP鏈路,實現流量的負載分擔

Vxlan在具體實現落地時分為兩種,一種是主機Overlay,一種是網絡Overlay

主機Overlay

Vxlan協議最初實現時,大家都是基於軟件的方式去實現Vxlan的封裝,主要是在服務器的vSwitch上完成協議部分,不需要對現網的網絡進行任何的變更即可完成Overlay的部署,可以支持虛擬化的服務器之間組網互通。

Vxlan中的VTEP、Vxlan GW等都通過安裝在服務器上的vSwitch軟件實現,只需要物理網絡設備對封裝之后的Vxlan報文進行傳統的IP轉發集客,主要IP可達,即可構建一個大范圍的二層網絡,這種主機Overlay技術試下,屏蔽了物理網絡的模型和拓撲的差異,將物理網絡的技術實現與計算虛擬化的關鍵要求分離開,即Overlay與Underlay的分離,雲的相關計算資源調度范圍擴大。具體模型如下:

主機Overlay方案的優點:

  • 所有OVS相關流表都在服務器的內存中,理論支持巨大的流量,不會受表項容量的限制
  • 對現網架構及相關設備沒有任何特殊要求,成本低
  • 可編程,靈活性高

主機Overlay方案的缺點:

  • 性能低:所有的Vxlan封裝、查表等工作都是通過主機軟件實現,需要占用主機的資源,在轉發性能上存在很大的瓶頸,這在很多互聯網公司實踐中都遇到
  • 非標准化:業界通過對OVS、Vxlan等軟件都進行了相關定制開發,雖然可以更好的滿足自身需求,但是從業界角度難以形成真正的標准化,通用性差
  • 非系統化:采用主機Overlay方式,僅實現了基本轉發面的問題,但是從整體運維角度,還需要開發配套的自動化系統實現對接
  • 流量邊界不清晰:因為Vxlan的VTEP在服務器內部完成,所以傳統網絡運維團隊在交換機上無法看到虛機\/容器的真實業務流量,對於故障排查造成很大的困難;當出現任何網絡問題,需要系統運維團隊與網絡運維團隊配合才能進行定位,工作界面交叉嚴重
  • 成本高:基於主機的Overlay實現,因為無論從性能提升、自動化運維、網絡可視化等角度,都需要公司投入大量的人力進行開發,這本身就是很大的開發成本,而且最終的效果還有待評估。

網絡Overlay

網絡Overlay指的是Vxlan相關功能都在物理交換機上完成,包括相關的VTEP及Vxlan GW等功能,都通過控制協議在網絡上設備上完成。

網絡Overlay方案的實現,主要依托於交換機芯片對Vxlan相關功能的支持,當前業界主要是依托Broadcom(Avago)的實現,主流的網絡設備廠家,如華為、華三、銳捷等都有采用Broadcom支持Vxlan功能芯片的交換機產品。當然,除了Broadcom有相關的芯片方案,其他芯片廠商也有相關實現,如Marvell、思科、MTK等,只是從出貨規模和成熟度上分析,Broadcom是絕對的主流,也是主流網絡設備廠商采用路線。

在Broadcom的芯片系列中,對於支持Vxlan技術的芯片,需要區分接入及核心。

  • TOR系列:當前主流的是Trident2和Trident2+兩種,這兩款芯片都是提供10G接入,40G上行,當然,針對下一代25G接入的場景,Broadcom有新的Tomahoc芯片,這款芯片不在討論范圍。針對Trident2和Trident2+芯片,轉發性能沒有區別,主要差別在於對Vxlan的支撐能力,其中Trident2只支持Vxlan的VTEP功能,即橋接功能,實現傳統VLAN到Vxlan網絡的映射,但是不提供Vxlan的Router能力,如果需要跨VNI的通信,需要提供專門的Vxlan Router。而Trident2+同時支持Vxlan的Bridge和Router,不需要借助額外的Vxlan Router 即可實現跨VNI子網的通信及Vxlan網絡與傳統網絡的通信。這兩種芯片對后面提到的網絡Overlay組網架構有非常大的影響。從產品化的角度,隨着芯片的更新換代,兩代芯片成本差異越來越小,各主流廠家已經基本都切換到Trident2+芯片方案,而從互聯網公司采購的角度,也基本都統一要求交換機采用Trident2+芯片,在成本差異不大的情況下,即使當前不急於部署Vxlan網絡,也預留了產品能力,保護了硬件的投資。

  • 核心系列:當前主流的是芯片方案有兩代支持Vxlan技術,包括上一代的Arad+和當前的Jericho芯片方案。兩代芯片都采用CLOS架構,基於網元分片進行無阻塞轉發,但是轉發能力有所差別,Arad+單片可以提供200Gbps的單向小包線速轉發,而Jericho芯片可以提供480Gbps的單向曉波線速轉發,這導致產品基本形態上有了較大差別,Jericho芯片最大可以支持單業務板卡提供36口100G線速轉發,而Arad+芯片最大支持單業務板卡36口40G接口線速轉發,這對100G需求量比較大的場景有較大的影響。從Vxlan的實現能力上有了很大的差別,Jericho芯片支撐的更加完善,可以同時提供Vxlan的Bridge和Router能力,而Arad+要么提供Vxlan的Bridge,要么提供Vxlan的Router,不能同時提供,這對實際組網有較大的影響。另外,Jericho芯片對Vxlan的相關表項支撐的更大,可以更好的滿足超大規模組網。

網絡Overlay方案的優點:

  • 高性能:基於硬件實現Vxlan相關功能,解決了主機Overlay網絡遇到的性能瓶頸,無論是10G接口、40G接口還是100G接口,都可以線速實現Vxlan的Bridge和Router功能。

  • 效率高:相比主機Overlay方案,網絡Overlay方案釋放主機的CPU、內存等開銷,釋放的主機能力可以更多的提高計算能力,提升整體效率

  • 統一標准化:基於Broadcom的商業交換機芯片方案,保證各廠家網絡設備的統一實現,解決主機Overlay方案遇到的標准化問題,解決通用性。

  • 成本低:借助多廠家的統一實現,可以進一步通過規模應用來降低芯片及產品的整體成本,可以降低建設成本。

  • 網絡邊界清晰:基於網絡設備實現的Vxlan,可以在網絡設備上借助芯片能力看到並分析虛機\/容器原始的業務流量,對運維有非常的幫助,並且統一了運維邊界,網絡運維團隊與系統運維團隊的交叉和沖突就小了很多。

網絡Overlay方案的缺點:

  • 靈活性差:基於交換機芯片之所以能實現線速的Vxlan流量處理,核心在於相關功能硬件化,借助硬件表項實現高性能的轉發處理,但是確定在於硬件不能隨意變更,相關網絡設計必須依據芯片本身特性進行,例如Vxlan報頭中的預留字段,在主機Overlay方案中可以自由修改,而在網絡Overlay中就不能達成。

  • 硬件表項限制:基於芯片硬件表現實現的Vxlan處理,必然遇到硬件表項容量的限制,比如Trident2+的最大主機路由容量是288K,那么在網絡規划時,必須要考慮這些相關限制,避免表項用爆,導致業務轉發故障。

網絡Overlay網絡的具體組網架構,依據Vxlan Router所在的位置分為兩種,即集中式Vxlan Router組網和分布式Vxlan Router組網。

集中式Vxlan Router組網:

在集中式的Vxlan Router組網中,由兩部分組成,包括Leaf和Spine,其中Leaf負責Vxlan的Bridge,完成VTEP功能;Spine負責Vxlan的Router。針對Leaf設備,可以考慮采用Trident2或者Trident2+芯片方案的交換機,針對Spine,基於網絡規模大小,可以考慮采用Arad+或這Jericho的芯片方案。

Vxlan在具體落地時,因為同子網的虛機\/容器分布在網絡任意角落,為了實現虛機\/容器之間的尋址(ARP解析),需要一個控制面去實現相關表項的同步。在Vxlan的標准Rfc中,Vxlan是沒有專門獨立的控制面\/協議的,虛機\/容器之間的通信是通過Flood&Learn模式進行泛洪學習、轉發。但是在現實部署在生產網時,大家不會采用這種泛洪機制。在集中式的Vxlan Router組網中,一般采用SDN作為控制面,通過SDN在各個設備節點進行MAC、IP等信息的分發,而SDN控制器通過與雲管平台對接,來獲取虛機\/容器的相關信息。

集中式Vxlan Router組網方案的優點:

  • 相比主機Overlay方案實現性能的大幅提升
  • 硬件標准化,兼容性好
  • 可復制性強。

集中式Vxlan Router組網方案的缺點:

  • 同TOR跨VNI流量迂回
  • 對Spine設備的硬件配置要求高,需要采用指定芯片板卡
  • 基於SDN的控制面比較復雜,對SDN本身的可靠性比較擔心
  • 整體實現的成本高

分布式Vxlan Router組網:

在分布式Vxlan Router組網模式中,所有虛機\/容器的網關都在Leaf交換機上實現,這時理論上對Spine交換機沒有特殊要求。Leaf交換機只能采用基於Trident2+芯片方案的設備(如果是25G架構可以考慮Tomahoc方案)。

針對分布式Vxlan Router的方案,與集中式Vxlan Router方案相比最大的一個改進,分布式Vxlan Router方案有了獨立的控制面,即EVPN。標准的EVPN在RFC7432中進行了定義,該RFC主要是針對RFC7209中描述的問題提供了解決方案,實現控制面與轉發面進行分離,通過MAC in IP的方式提供L2VPN能力,解決傳統VPLS協議遇到的一些限制,並支持多種隧道封裝方式。EVPN通過對MP-BGP協議進行了擴展,通過新的Address-Family攜帶終端的MAC信息在各個Peer之間進行分發。針對分布式Vxlan Router采用的EVPN協議,是在2015年基於標准EVPN協議進行了擴展,具體草案包括《draft-ietf-bess-evpn-overlay-02》、《draft-ietf-bess-evpn-inter-subnet-forwarding-01》、《draft-ietf-bess-evpn-prefix-advertisement-02》等。具體解決了Vxlan VNI網關及路由的問題、虛機遷移的問題,並解決標准EVPN在Vxlan環境下的適用性。

在分布式Vxlan Router方案中,因為有了獨立的基於MP-BGP的EVPN控制面,那么意味着在Overlay網絡中需要運行BGP協議,並開啟L2VPN Address-Family來承載各Peer節點下虛機\/容器的MAC和IP等信息。關於EVPN的BGP鄰居建立示意圖如下:

當各個Leaf啟動時,各VTEP之間會通過BGP通告EVPN新的路由—集成多播路由(Inclusive Multicast Route)來發現各個peer,並在VTEP之間建立一條Vxlan 隧道,並生成BUM轉發表,用來指導廣播、組播、未知單播的轉發。

在EVPN中,最終要的是借助擴展的BGP承載分發虛機\/容器的MAC等信息,這是通過MAC路由表生成,具體格式如下:

分布式Vxlan Router組網方案的優點:

  • 相比集中式Vxlan Router組網方案,分布式Vxlan Router方案的流量轉發路徑最優,不存在迂回流量
  • 支持大規模IDC部署
  • 基於BGP的獨立控制面成熟、可信
  • 二層邊緣化、可靠
  • 對Spine 交換機的要求低
  • 整體成本低

分布式Vxlan Router組網方案的缺點:

  • 不如集中式Vxlan Router方案成熟。這個問題的關鍵在於Broadcom芯片的商業化時間有先后導致。基於Trident2+Arad+就可以實現集中式Vxlan Router組網,這套組合在2015年已經成熟並規模量產。但是支持分布式Vxlan Router方案的Trident2+ + Jericho的芯片方案,是在2016年1月份以后才正式商用,量產是4月份左右,所以會導致這個缺點。

第三章 網絡運維可視化

即使在傳統的網絡架構中,一旦業務部門反饋網絡丟包,作為網絡運維團隊的人員來說,就需要逐節點進行排查很久,如果遇到設備內軟件或芯片故障,還需要借助網絡廠商的人才能定位、解決。

在部署Overlay網絡之后,基於Vxlan的虛擬網絡變得更不可見,原始虛機\/容器流量進行封裝后,無法直接排查,更進一步增加了網絡運維的難度。還有一種情況,為了提高網絡的可靠性,網絡中會存在大量的鏈路聚合及等價路由-ECMP,這也會增加排障的難度。

傳統的運維手段,主要是依托Sflow&IPFIX等技術,采用逐節點的命令行定位,定位時效至少是小時計,這對業務影響是非常大的。隨着SDN的成熟,當前業內的主要訴求也發生改變,希望借助SDN實現可視化運維,在IDC內部實現基於會話級的端到端流量可視化,並可以在秒級實現故障的定位,大大簡化運維的難度。

目前網絡廠商在網絡運維可視化這塊有比較大的優勢,畢竟基於網絡設備自身的能力更容易實現可視化。從銳捷網絡公開的一些信息中了解,他們的可視化運維主要是有以下四個方面:

  • 隨路檢測可視化:通過SDN+Openflow協議,針對原始故障流進行着色,呈現其在IDC內端到端的真實物理轉發路徑,並計算各節點的丟包率。

  • 旁路檢測可視化:當原始業務流已經遷走,這時可以借助網絡交換機的CPU模擬產生故障流的報文(只是模擬了二、三、四層報頭),再通過SDN+OpenFlow進行路徑及丟包率的統計。

  • 會話延遲可視化:基於交換機芯片端口隊列的管理能力,統計、分析每個業務流在各個節點轉發時差生了多少延遲,據說可以做到ms級的失效。

  • Buffer可視化:主要是在Spine節點,通過實時監控交換芯片各端口Buffer的利用情況,提前預警,為網絡優化提供依據。

第四章 網絡運營自動化

Overlay作為虛擬網絡,需要面對業務的頻繁變更,對於Overlay網絡的配置不可能在依靠原來的工單+人工操作方式。一方面影響業務部門的體驗和時效性,自身也需要占用大量的運維資源,而且交付的質量也容易出錯。

當前主流的操作模式,讓業務平台對接網絡平台,通過SDN+Netconf完成對Overlay網絡自動化配置。

具體實現方案,在內部提供業務Portal,通過該門戶為內部提供相應的IT資源申請。該Portal后面調用雲管理平台,如Openstack,但是雲管理平台只是涉及服務器相關計算、存儲資源的調度,但是申請者的業務肯定涉及網絡相關的配置,那么可以通過再聯動網絡廠商的SDN控制器,其SDN控制器再通過Netconf去配置交換機Vxlan等相關配置。當存在多廠家網絡設備時,可以考慮在雲管理平台和廠家SDN控制器之間增加一個NO業務編排系統,互聯網公司只需要把控NO系統自身及其南向接口的標准化,剩余的部分,由網絡設備廠家自身搞定。

因為在IDC中還會涉及LVS、NAT等GW資源,為了實現業務交付的完全自動化,這些GW也需要實現自動化配置,這時需要專門的控制器,如基於Etcd實現的服務發現與自動化配置。具體示意圖如下:

結論

基於網絡設備的Overlay解決方案,可以提供更好性能的吞吐能力,更為標准化實現,實現更為清晰的網絡邊界。而基於EVPN+Vxlan的分布式設計,可以更好的為互聯網IDC提供更為靈活的組網設計及最佳的流量轉發模型。另外,在SDN的協助下可以實現運維的可視化,簡化Overlay網絡的運維壓力,提升效率,降低成本。借助SDN+Netconf可以幫助互聯網公司實現業務的自動化

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM