轉自:https://www.jianshu.com/p/cccfb481d548
產生背景:雲計算成為企業IT建設新形態
雲計算,憑借其在系統利用率高、人力/管理成本低、靈活性、可擴展性強等方面表現出的優勢,已經成為目前企業IT建設的新形態;而在雲計算中,大量的采用和部署虛擬化是一個基本的技術模式。服務器虛擬化技術的廣泛部署,極大地增加了數據中心的計算密度;同時,為了實現業務的靈活變更,虛擬機VM(Virtual Machine)需要能夠在網絡中進行不受限得遷移,如下圖所示。實際上,對於數據中心而言,虛擬機遷移已經成為了一個常態性業務。VXLAN正是為了解決雲計算時代虛擬化中的一系列問題而產生的一項技術。

虛擬機數量的快速增長與虛擬機遷移業務的日趨頻繁,給傳統的“二層+三層”數據中心網絡帶來了新的挑戰:
虛擬機規模受網絡設備表項規格的限制
對於同網段主機的通信而言,報文通過查詢MAC表進行二層轉發。服務器虛擬化后,數據中心中VM的數量比原有的物理機發生了數量級的增長,伴隨而來的便是虛擬機網卡MAC地址數量的空前增加。
一般而言,接入側二層設備的規格較小,MAC地址表項規模已經無法滿足快速增長的VM數量。
傳統網絡的隔離能力有限
VLAN作為當前主流的網絡隔離技術,在標准定義中只有12比特,也就是說可用的VLAN數量只有4096。對於公有雲或其它大型虛擬化雲計算服務這種動輒上萬甚至更多租戶的場景而言,VLAN的隔離能力顯然已經力不從心。
虛擬機遷移范圍受限
虛擬機遷移,顧名思義,就是將虛擬機從一個物理機遷移到另一個物理機,但是要求在遷移過程中業務不能中斷。要做到這一點,需要保證虛擬機遷移前后,其IP地址、MAC地址等參數維持不變。這就決定了,虛擬機遷移必須發生在一個二層域中。而傳統數據中心網絡的二層域,將虛擬機遷移限制在了一個較小的局部范圍內。
值得一提的是,通過堆疊、SVF、TRILL等技術構建物理上的大二層網絡,可以將虛擬機遷移的范圍擴大。但是,構建物理上的大二層,難免需要對原來的網絡做大的改動,並且物理大二層網絡的范圍依然會受到種種條件的限制。
簡介:
VXLAN(Virtual eXtensible Local Area Network,虛擬擴展局域網),是由IETF定義的NVO3(Network Virtualization over Layer 3)標准技術之一。它采用L2 over L4(MAC-in-UDP)的報文封裝模式,將二層報文用三層協議進行封裝,可實現二層網絡在三層范圍內進行擴展,同時滿足數據中心大二層虛擬遷移和多租戶的需求。
VXLAN網絡模型
從上圖中可以發現,VXLAN網絡中出現了以下傳統數據中心網絡中沒有的新元素:
- VTEP(VXLAN Tunnel Endpoints,VXLAN隧道端點)
VXLAN網絡的邊緣設備,是VXLAN隧道的起點和終點,VXLAN報文的相關處理均在這上面進行。總之,它是VXLAN網絡中絕對的主角。VTEP既可以是一個獨立的網絡設備(比如華為的CE系列交換機),也可以是虛擬機所在的服務器。
- VNI(VXLAN Network Identifier,VXLAN 網絡標識符)
前文提到,以太網數據幀中VLAN只占了12比特的空間,這使得VLAN的隔離能力在數據中心網絡中力不從心。而VNI的出現,就是專門解決這個問題的。VNI是一種類似於VLAN ID的用戶標示,一個VNI代表了一個租戶,屬於不同VNI的虛擬機之間不能直接進行二層通信。VXLAN報文封裝時,給VNI分配了足夠的空間使其可以支持海量租戶的隔離。
- VXLAN隧道
“隧道”是一個邏輯上的概念,它並不新鮮,比如大家熟悉的GRE。說白了就是將原始報文“變身”下,加以“包裝”,好讓它可以在承載網絡(比如IP網絡)上傳輸。從主機的角度看,就好像原始報文的起點和終點之間,有一條直通的鏈路一樣。而這個看起來直通的鏈路,就是“隧道”。顧名思義,“VXLAN隧道”便是用來傳輸經過VXLAN封裝的報文的,它是建立在兩個VTEP之間的一條虛擬通道。
如果服務器作為VTEP,那從服務器發送到接入設備的報文便是經過封裝后的報文,這樣,接入設備就不需要學習VM的MAC地址了,它只需要根據外層封裝的報文頭負責基本的三層轉發就可以了。因此,虛擬機規模就不會受網絡設備表項規格的限制了。
當然,如果網絡設備作為VTEP,它還是需要學習VM的MAC地址。但是,從對報文進行封裝的角度來說,網絡設備的性能還是要比服務器強很多。
3)有了VTEP的封裝機制和VXLAN隧道后,所謂的 “二層域”就可以輕而易舉的突破物理上的界限。也就是說,在IP網絡中, “明”里傳輸的是跨越三層網絡的UDP報文,“暗”里卻已經悄悄將源VM的原始報文送達目的VM。就好像在三層的網絡之上,構建出了一個虛擬的二層網絡,而且只要IP網絡路由可達,這個虛擬的二層網絡想做多大就做多大。所以說VXLAN是一種NVO3技術。
VXLAN報文格式
VTEP對VM發送的原始以太幀(Original L2 Frame)進行了以下“包裝”:
- VXLAN Header
增加VXLAN頭(8字節),其中包含24比特的VNI字段,用來定義VXLAN網絡中不同的租戶。此外,還包含VXLAN Flags(8比特,取值為00001000)和兩個保留字段(分別為24比特和8比特)。
- UDP Header
VXLAN頭和原始以太幀一起作為UDP的數據。UDP頭中,目的端口號(VXLAN Port)固定為4789,源端口號(UDP Src. Port)是原始以太幀通過哈希算法計算后的值。
- Outer IP Header
封裝外層IP頭。其中,源IP地址(Outer Src. IP)為源VM所屬VTEP的IP地址,目的IP地址(Outer Dst. IP)為目的VM所屬VTEP的IP地址。
- Outer MAC Header
封裝外層以太頭。其中,源MAC地址(Src. MAC Addr.)為源VM所屬VTEP的MAC地址,目的MAC地址(Dst. MAC Addr.)為到達目的VTEP的路徑上下一跳設備的MAC地址。
VXLAN報文轉發機制
1.哪些VTEP間需要建立VXLAN隧道

如前所述,通過VXLAN隧道,“二層域”可以突破物理上的界限,實現大二層網絡中VM之間的通信。所以,連接在不同VTEP上的VM之間如果有“大二層”互通的需求,這兩個VTEP之間就需要建立VXLAN隧道。換言之,同一大二層域內的VTEP之間都需要建立VXLAN隧道。例如,假設上圖中VTEP_1連接的VM、VTEP_2連接的VM以及VTEP_3連接的VM之間需要“大二層”互通,那VTEP_1、VTEP_2和VTEP_3之間就需要兩兩建立VXLAN隧道。如下圖

1)什么是“同一大二層域”
前面提到的“同一大二層域”,就類似於傳統網絡中VLAN(虛擬局域網)的概念,只不過在VXLAN網絡中,它有另外一個名字,叫做Bridge-Domain,簡稱BD。
我們知道,不同的VLAN是通過VLAN ID來進行區分的,那不同的BD是如何進行區分的呢?其實前面已經提到了,就是通過VNI來區分的。對於華為CE系列交換機而言,BD與VNI是1:1的映射關系,這種映射關系是通過在VTEP上配置命令行建立起來的。配置如下:
bridge-domain 10 //表示創建一個“大二層廣播域”BD,其編號為10
vxlan vni 5000 //表示在BD 10下,指定與之關聯的VNI為5000
VTEP會根據以上配置生成BD與VNI的映射關系表,該映射表可以通過命令行查看,如下所示:Number of vxlan vni : 1
VNI BD-ID State
----------------------------------
5000 10 up
有了映射表后,進入VTEP的報文就可以根據自己所屬的BD來確定報文封裝時該添加哪個VNI。2)如何確定報文屬於哪個BD
這里要先澄清下,VTEP只是交換機承擔的一個角色而已,只是交換機功能的一部分。也就是說,並非所有進入到交換機的報文都會走VXLAN隧道(也可能報文就是走普通的二三層轉發流程)。所以,我們在回答“如何確定報文屬於哪個BD”之前,必須先要回答“哪些報文要進入VXLAN隧道”。
報文要進入交換機進行下一步處理,首先得先過接口這一關,可以說接口掌控着對報文的“生殺大權”。傳統網絡中定義了三種不同類型的接口:Access、Trunk、Hybrid。這三種類型的接口雖然應用場景不同,但他們的最終目的是一樣的:一是根據配置來檢查哪些報文是允許通過的;二是判斷對檢查通過的報文怎樣的處理。
其實在VXLAN網絡中,VTEP上的接口也承擔着類似的任務,只不過在CE系列交換機中,這里的接口不是物理接口,而是一個叫做“二層子接口”的邏輯接口。類似的,二層子接口主要做兩件事:一是根據配置來檢查哪些報文需要進入VXLAN隧道;二是判斷對檢查通過的報文怎樣的處理。下面我們就來看下,二層子接口是如何完成這兩件事的。
在二層子接口上,可以根據需要定義不同的流封裝類型(類似於傳統網絡中不同的接口類型)。CE系列交換機目前支持三種不同的流封裝類型,分別是dot1q、untag和default,它們各自對報文的處理方式如下表所示。

VXLAN隧道兩端二層子接口的配置並不一定是完全對等的。正因為這樣,才可能實現屬於同一網段但是不同VLAN的兩個VM通過VXLAN隧道進行通信。
3)二層子接口加入BD
看了上面的描述,再來回答“如何確定報文屬於哪個BD”就非常簡單了。其實,只要將二層子接口加入指定的BD,然后根據二層子接口上的配置,就可以確定報文屬於哪個BD啦!比如下圖所示的組網,我們可以分別在VTEP的兩個物理接口10GE 1/0/1和10GE 1/0/2上配置不同流封裝類型的二層子接口並將其分別加入不同的BD。

基於二層物理接口10GE 1/0/1,分別創建二層子接口10GE 1/0/1.1和10GE 1/0/1.2,且分別配置其流封裝類型為dot1q和untag。配置如下:
interface 10GE1/0/1.1 mode l2 //創建二層子接口10GE1/0/1.1
encapsulation dot1q vid 10 //只允許攜帶VLAN Tag 10的報文進入VXLAN隧道
bridge-domain 10 //報文進入的是BD 10
interface 10GE1/0/1.2 mode l2 //創建二層子接口10GE1/0/1.2
encapsulation untag //只允許不攜帶VLAN Tag的報文進入VXLAN隧道
bridge-domain 20 //報文進入的是BD 20
基於二層物理接口10GE 1/0/2,創建二層子接口10GE 1/0/2.1,且流封裝類型為default。配置如下:
interface 10GE1/0/2.1 mode l2 //創建二層子接口10GE1/0/2.1
encapsulation default //允許所有報文進入VXLAN隧道
bridge-domain 30 //報文進入的是BD 30
此時你可能會有這樣的疑問,為什么要在10GE 1/0/1上創建兩個不同類型的子接口?是否還可以繼續在10GE 1/0/1上創建一個default類型的二層子接口?換句話說,用戶應該如何選擇配置哪種類型的二層子接口?三種類型的二層子接口之間,是否存在配置約束關系?
我們先來解答下是否可以在10GE 1/0/1上再創建一個default類型的二層子接口。答案是不可以。其實根據上表的描述,這一點很容易理解。因為default類型的二層子接口允許所有報文進入VXLAN隧道,而dot1q和untag類型的二層子接口只允許某一類報文進入VXLAN隧道。這就決定了, default類型的二層子接口跟其他兩種類型的二層子接口是不可以在同一物理接口上共存的。否則,報文到了接口之后如何判斷要進入哪個二層子接口呢。所以, default類型的子接口一般應用在經過此接口的報文均需要走同一條VXLAN隧道的場景,即下掛的VM全部屬於同一BD。例如,上圖中VM3和VM4均屬於BD 30,則10GE 1/0/2上就可以創建default類型的二層子接口。
再來看下為什么可以在10GE 1/0/1上分別創建dot1q和untag類型的二層子接口。如上圖所示,VM1和VM2分別屬於VLAN 10和VLAN 20,且分別屬於不同的大二層域BD 10和BD 20,顯然他們發出的報文要進入不同的VXLAN隧道。如果VM1和VM2發出的報文在到達VTEP的10GE 1/0/1接口時,一個是攜帶VLAN 10的Tag的,一個是不攜帶VLAN Tag的(比如二層交換機上行連接VTEP的接口上配置的接口類型是Trunk,允許通過的VLAN為10和20,PVID為VLAN 20),則為了區分兩種報文,就必須要在10GE 1/0/1上分別創建dot1q和untag類型的二層子接口。所以,當經過同一物理接口的報文既有帶VLAN Tag的,又有不帶VLAN Tag的,並且他們各自要進入不同的VXLAN隧道,則可以在該物理接口上同時創建dot1q和untag類型的二層子接口。
當然,現網中可能存在各種不同的組網,在實際應用中,請務必根據組網需求,結合上表,合理規划二層子接口的流封裝類型。
5)VXLAN隧道怎么建
現在,我們可以來看下VXLAN隧道是怎么建立起來的了。
一般而言,隧道的建立不外乎手工方式和自動方式兩種。
手工方式
這種方式需要用戶手動指定VXLAN隧道的源和目的IP地址分別為本端和對端VTEP的IP地址,也就是人為的在本端VTEP和對端VTEP之間建立靜態VXLAN隧道。
對於CE系列交換機,以上配置是在NVE(Network Virtualization Edge)接口下完成的。配置過程如下
interface Nve1 //創建邏輯接口NVE 1
source 1.1.1.1 //配置源VTEP的IP地址(推薦使用Loopback接口的IP地址)
vni 5000 head-end peer-list 2.2.2.2
vni 5000 head-end peer-list 2.2.2.3
其中,vni 5000 head-end peer-list 2.2.2.2和vni 5000 head-end peer-list 2.2.2.3的配置,表示屬於VNI 5000的對端VTEP有兩個,IP地址分別為2.2.2.2和2.2.2.3。根據這兩條配置,VTEP上會生成如下所示的一張表:
<HUAWEI> display vxlan vni 5000 verbose
BD ID : 10
State : up
NVE : 288
Source : 1.1.1.1
UDP Port : 4789
BUM Mode : head-end
Group Address : -
Peer List : 2.2.2.2 2.2.2.3
根據vxlan vni 5000 verbose中的Peer List,本端VTEP就可以知道屬於同一BD(或同一VNI)的對端VTEP都有哪些,這也就決定了同一大二層廣播域的范圍。當VTEP收到BUM(Broadcast&Unknown-unicast&Multicast,廣播&未知單播&組播)報文時,會將報文復制並發送給Peer List中所列的所有對端VTEP(這就好比廣播報文在VLAN內廣播)。因此,這張表也被稱為“頭端復制列表”。當VTEP收到已知單播報文時,會根據VTEP上的MAC表來確定報文要從哪條VXLAN隧道走。而此時Peer List中所列的對端,則充當了MAC表中“出接口”的角色。在后面的報文轉發流程中,你將會看到頭端復制列表是如何在VXLAN網絡中指導報文進行轉發的。
自動方式
自動方式下VXLAN隧道的建立需要借助於其他的協議,例如BGP。CE系列交換機中,自動方式建立VXLAN隧道主要應用在EVN(Ethernet Virtual Network)和VXLAN的分布式網關場景中。
從前面的描述我們知道,屬於同一BD的VXLAN隧道可能不止一條,比如前面的頭端復制列表中,同一個源端VTEP(1.1.1.1)對應了兩個對端VTEP(2.2.2.2和2.2.2.3)。那就帶來了另一個問題,報文到底應該走哪一條隧道呢?
我們知道,基本的二三層轉發中,二層轉發依賴的是MAC表,如果沒有對應的MAC表,則主機發送ARP廣播報文請求對端的MAC地址;三層轉發依賴的是FIB表。在VXLAN中,其實也是同樣的道理。下面就讓我們來看下,VXLAN網絡中報文的轉發流程。相信看完下面的內容,關於“如何確定報文要進哪條隧道”的疑惑也就迎刃而解了。
2.VXLAN網絡中報文的轉發流程1)同子網互通
如上圖所示,VM_A、VM_B和VM_C同屬於10.1.1.0/24網段,且同屬於VNI 5000。此時,VM_A想與VM_C進行通信。由於是首次進行通信,VM_A上沒有VM_C的MAC地址,所以會發送ARP廣播報文請求VM_C的MAC地址。
下面就讓我們根據ARP請求報文及ARP應答報文的轉發流程,來看下MAC地址是如何進行學習的。
※ARP請求報文轉發流程
ARP請求報文的轉發流程如下:
1.VM_A發送源MAC為MAC_A、目的MAC為全C、源IP為IP_A、目的IP為IP_C的ARP廣播報文,請求VM_C的MAC地址。
2.VTEP_1收到ARP請求后,根據二層子接口上的配置判斷報文需要進入VXLAN隧道。確定了報文所屬BD后,也就確定了報文所屬的VNI。同時,VTEP_1學習MAC_A、VNI和報文入接口(Port_1,即二層子接口對應的物理接口)的對應關系,並記錄在本地MAC表中。之后,VTEP_1會根據頭端復制列表對報文進行復制,並分別進行封裝。
可以看到,這里封裝的外層源IP地址為本地VTEP(VTEP_1)的IP地址,外層目的IP地址為對端VTEP(VTEP_2和VTEP_3)的IP地址;外層源MAC地址為本地VTEP的MAC地址,而外層目的MAC地址為去往目的IP的網絡中下一跳設備的MAC地址。
封裝后的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
3.報文到達VTEP_2和VTEP_3后,VTEP對報文進行解封裝,得到VM_A發送的原始報文。同時,VTEP_2和VTEP_3學習VM_A的MAC地址、VNI和遠端VTEP的IP地址(IP_1)的對應關系,並記錄在本地MAC表中。之后,VTEP_2和VTEP_3根據二層子接口上的配置對報文進行相應的處理並在對應的二層域內廣播。
VM_B和VM_C接收到ARP請求后,比較報文中的目的IP地址是否為本機的IP地址。VM_B發現目的IP不是本機IP,故將報文丟棄;VM_C發現目的IP是本機IP,則對ARP請求做出應答。下面,讓我們看下ARP應答報文是如何進行轉發的。
※ARP應答報文轉發流程
ARP應答報文的轉發流程如下:
4 由於此時VM_C上已經學習到了VM_A的MAC地址,所以ARP應答報文為單播報文。報文源MAC為MAC_C,目的MAC為MAC_A,源IP為IP_C、目的IP為IP_A。
5 VTEP_3接收到VM_C發送的ARP應答報文后,識別報文所屬的VNI(識別過程與步驟2類似)。同時,VTEP_3學習MAC_C、VNI和報文入接口(Port_3)的對應關系,並記錄在本地MAC表中。之后,VTEP_3對報文進行封裝。可以看到,這里封裝的外層源IP地址為本地VTEP(VTEP_3)的IP地址,外層目的IP地址為對端VTEP(VTEP_1)的IP地址;外層源MAC地址為本地VTEP的MAC地址,而外層目的MAC地址為去往目的IP的網絡中下一跳設備的MAC地址。封裝后的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
6 報文到達VTEP_1后,VTEP_1對報文進行解封裝,得到VM_C發送的原始報文。同時,VTEP_1學習VM_C的MAC地址、VNI和遠端VTEP的IP地址(IP_3)的對應關系,並記錄在本地MAC表中。之后,VTEP_1將解封裝后的報文發送給VM_A。
至此,VM_A和VM_C均已學習到了對方的MAC地址。之后,VM_A和VM_C將采用單播方式進行通信。單播報文的封裝與解封裝過程,與上中所展示的類似。
2)不同子網互通 
如圖3-7所示,VM_A和VM_B分別屬於10.1.10.0/24網段和10.1.20.0/24網段,且分別屬於VNI 5000和VNI 6000。VM_A和VM_B對應的三層網關分別是VTEP_3上BDIF 10和BDIF 20的IP地址。VTEP_3上存在到10.1.10.0/24網段和10.1.20.0/24網段的路由。此時,VM_A想與VM_B進行通信。
BDIF接口的功能與VLANIF接口類似,是基於BD創建的三層邏輯接口,用以實現不同子網VM之間或VXLAN網絡與非VXLAN網絡之間的通信。
由於是首次進行通信,且VM_A和VM_B處於不同網段,VM_A需要先發送ARP廣播報文請求網關(BDIF 10)的MAC,獲得網關的MAC后,VM_A先將數據報文發送給網關;之后網關也將發送ARP廣播報文請求VM_B的MAC,獲得VM_B的MAC后,網關再將數據報文發送給VM_B。以上MAC地址學習的過程與同子網互通中MAC地址學習的流程一致,不再贅述。現在假設VM_A和VM_B均已學到網關的MAC、網關也已經學到VM_A和VM_B的MAC,下面就讓我們看下數據報文是如何從VM_A發送到VM_B的。

如上圖所示,數據報文從VM_A發送到VM_B的流程如下:
1 VM_A先將數據報文發送給網關。報文的源MAC為MAC_A,目的MAC為網關BDIF 10的MAC_10,源IP地址為IP_A,目的IP為IP_B。
2 VTEP_1收到數據報文后,識別此報文所屬的VNI(VNI 5000),並根據MAC表項對報文進行封裝。可以看到,這里封裝的外層源IP地址為本地VTEP的IP地址(IP_1),外層目的IP地址為對端VTEP的IP地址(IP_3);外層源MAC地址為本地VTEP的MAC地址(MAC_1),而外層目的MAC地址為去往目的IP的網絡中下一跳設備的MAC地址。
封裝后的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
3 報文進入VTEP_3,VTEP_3對報文進行解封裝,得到VM_A發送的原始報文。然后,VTEP_3會對報***如下處理:
-
VTEP_3發現該報文的目的MAC為本機BDIF 10接口的MAC,而目的IP地址為IP_B(10.1.20.1),所以會根據路由表查找到IP_B的下一跳。
-
發現下一跳為10.1.20.10,出接口為BDIF 20。此時VTEP_3查詢ARP表項,並將原始報文的源MAC修改為BDIF 20接口的MAC(MAC_20),將目的MAC修改為VM_B的MAC(MAC_B)。
-
報文到BDIF 20接口時,識別到需要進入VXLAN隧道(VNI 6000),所以根據MAC表對報文進行封裝。這里封裝的外層源IP地址為本地VTEP的IP地址(IP_3),外層目的IP地址為對端VTEP的IP地址(IP_2);外層源MAC地址為本地VTEP的MAC地址(MAC_3),而外層目的MAC地址為去往目的IP的網絡中下一跳設備的MAC地址。
封裝后的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
4 報文到達VTEP_2后,VTEP_2對報文進行解封裝,得到內層的數據報文,並將其發送給VM_B。
VM_B回應VM_A的流程與上述過程類似,本文就不再贅述啦!
VXLAN網絡與非VXLAN網絡之間的互通,也需要借助於三層網關。其實現與圖3-8的不同點在於報文在VXLAN網絡側會進行封裝,而在非VXLAN網絡側不需要進行封裝。報文從VXLAN側進入網關並解封裝后,就按照普通的單播報文發送方式進行轉發。
VXLAN應用部署方式
以下圖所示的典型的“Spine-Leaf”數據中心組網為例,給大家介紹一下CE系列交換機VXLAN的應用場景和部署方案。

在上圖所示的數據中心里,企業用戶擁有多個部門(部門1和部門2),每個部門中擁有多個VM(VM1和VM3,VM2和VM4)。同部門的VM屬於同一個網段,不同部門的VM屬於不同的網段。用戶希望同一部門VM之間、不同部門VM之間,VM與Internet之間均可相互訪問。
1.VXLAN網絡的子網互通
1)相同子網互通
如下圖所示,Leaf1和Leaf2作為VXLAN網絡的VTEP,兩個Leaf之間搭建VXLAN隧道,並在每個Leaf上部署VXLAN二層網關,即可實現同一部門VM之間的相互通信。此時Spine只作為VXLAN報文的轉發節點,不感知VXLAN隧道的存在,可以是任意的三層網絡設備。
部署方案

2)不同子網互通(集中式網關)

3)不同子網互通(分布式網關)
出現背景
細心的讀者可能已經發現,在不同子網互通(集中式網關)中,同一Leaf(Leaf1)下掛的不同網段VM(VM1和VM2)之間的通信,都需要在Spine上進行繞行,這樣就導致Leaf與Spine之間的鏈路上,存在冗余的報文,額外占用了大量的帶寬。同時,Spine作為VXLAN三層網關時,所有通過三層轉發的終端租戶的表項都需要在該設備上生成。但是,Spine的表項規格有限,當終端租戶的數量越來越多時,容易成為網絡瓶頸。分布式網關的出現,很好的解決了這兩個問題。
部署方案
- 同Leaf節點下不同部門VM之間的通信
如下圖所示,Leaf1作為VXLAN網絡的VTEP,在Leaf1上部署VXLAN三層網關,即可實現同Leaf下不同部門VM之間的相互通信。此時,VM1和VM2互訪時,流量只需要在Leaf1節點進行轉發,不再需要經過Spine節點,從而節約了大量的帶寬資源。
- 跨Leaf節點不同部門VM之間的通信
如下圖所示,Leaf1和Leaf2作為VXLAN網絡的VTEP,在Leaf1和Leaf2上部署VXLAN三層網關。兩個VXLAN三層網關之間通過BGP動態建立VXLAN隧道,並通過BGP的remote-nexthop屬性發布本網關下掛的主機路由信息給其他BGP鄰居,從而實現跨Leaf節點不同部門VM之間的相互通信。

Leaf作為VXLAN三層網關時,只學習其下掛終端租戶的表項,而不必像集中式三層網關一樣,需要學習網絡中所有終端租戶的表項,從而解決了集中式三層網關帶來表項瓶頸問題。
2.VXLAN網絡的可靠性
隨着網絡的快速普及和應用的日益深入,基礎網絡的可靠性日益成為用戶關注的焦點,如何能夠保證網絡傳輸不中斷對於終端用戶而言非常重要。
在VXLAN網絡的子網互通中,VM與Leaf之間,Leaf與Spine之間都是通過單歸方式接入的。這種組網接入方式,顯然已經不能滿足用戶對VXLAN網絡可靠性的需求。
這時,可以按照如下圖所示方式,提升VXLAN網絡的可靠性。

1)接入層的可靠性
通常采用堆疊(CSS)方式提升接入層的可靠性。這是因為,接入層的設備數量繁多,堆疊方式可以將多台交換機設備組合在一起,虛擬化成一台交換設備,所有配置均在這一台虛擬交換機上進行,從而簡化了接入層設備的運維復雜度。此外,堆疊系統內成員交換機之間在進行冗余備份的同時,能夠利用跨設備的Eth-Trunk實現設備間鏈路的負載分擔。

如上圖所示,Leaf1和Leaf2組建為堆疊系統CSS-1,Leaf3和Leaf4組建為堆疊系統CSS-2,VM1~VM4均通過雙歸的方式接入到各自的CSS系統中。CSS-1和CSS-2作為VXLAN網絡的VTEP,兩個CSS之間搭建VXLAN隧道,並在每個CSS上部署VXLAN二層網關,從而實現同一部門VM之間的相互通信。當CSS系統正常時,VM1與VM3之間互訪的流量,通過CSS-1堆疊系統中的Leaf1和Leaf2進行負載分擔轉發。當CSS系統故障時(Leaf1故障),VM1與VM3之間互訪的流量,全部切換到CSS-1堆疊系統中的Leaf2進行轉發,從而實現了流量的不間斷,提升了接入層的可靠性。
2)核心層的可靠性
通常采用多活網關方式提升核心層的可靠性。這是因為,核心層設備物理位置較為分散,傳統的設備級備份無法滿足要求,必須通過協議級備份來實現。
在多活網關組網中,通過給多台Spine設備部署相同的網關信息,將它們對外模擬成VXLAN網絡中的一個虛擬VTEP,然后在所有Spine設備上配置三層網關,使得無論流量發到哪一個Spine,該設備都可以提供服務,將報文正確轉發給下一跳設備。此外,多活網關中的多台Spine之間形成負載分擔關系,共同進行流量轉發。

如上圖所示,Spine1、Spine2分別與接入層的堆疊系統CSS-1和CSS-2之間建立VXLAN隧道,在Spine1、Spine2上配置VXLAN三層網關功能,Spine1、Spine2上部署相同的網關MAC地址、網關IP地址以及源VTEP地址,以便對外模擬成一個虛擬的VTEP,從而實現了不同網段VM之間、VM與外網之間的互通。
當多活網關系統正常時,VM1與VM4之間互訪的流量、VM1與Internet之間互訪的流量,通過Spine1和Spine2進行負載分擔轉發。
當多活網關系統故障時(Spine1故障),VM1與VM4之間互訪的流量、VM1與Internet之間互訪的流量,全部切換到Spine2進行轉發,從而實現了流量的不間斷,提升了核心層的可靠性。
3.VXLAN網絡的部署方案
CE系列交換機支持通過單機方式和控制器方式來部署VXLAN網絡。這兩種方式中VXLAN網絡的子網互通以及VXLAN網絡的可靠性的實現均與前面一致,不同點在於VXLAN的配置下發方式不同:單機方式是通過CLI手動在設備上進行配置,控制器方式是通過控制器向設備下發配置或流表,設備僅作為轉發器。
下面以圖4-6所示組網為例,簡單介紹一下當前CE系列交換機支持的VXLAN控制器部署方式:SNC控制器方式和AC控制器方式。

SNC控制器方式
SNC控制器方式是指通過SNC控制器動態建立VXLAN隧道。
此方式下,CE系列交換機作為轉發器,無需進行VXLAN配置。VXLAN隧道的創建以及指導報文轉發的表項,均由SNC控制器通過OpenFlow協議向轉發器下發。
AC控制器方式
AC控制器方式是指通過AC控制器動態建立VXLAN隧道。
此方式下,CE系列交換機作為轉發器,需要預先完成部分基礎配置(具體配置內容請參考產品配置指南),AC控制器通過NETCONF協議向轉發器下發建立VXLAN隧道的配置,通過OpenFlow協議控制報文在隧道中的轉發。
VXLAN通過MAC-in-UDP的報文封裝,實現了二層報文在三層網絡上的透傳,在雲端上架起了一道道無形的“彩虹”,解決了雲計算中虛擬化帶來的一系列問題。
