Flannel的兩種模式解析(VXLAN、host-gw)
Flannel是為Kubernetes設計的一種簡單易用的容器網絡解決方案,將所有的Pod都組織在同一個子網的虛擬大二層網絡中。Flannel支持的后端轉發方式有許多種,本文將介紹其中兩種,VXLAN以及host-gw。
VXLAN 簡介
VXLAN (Virtual Extensible LAN)是一種網絡虛擬化技術,它使用一種隧道協議,將二層以太網幀封裝在四層UDP報文中,通過三層網絡傳輸,組成一個虛擬大二層網絡。VXLAN的報文格式如下: VXLAN使用VTEP(VXLAN Tunnel Endpoint)來進行封包和解包,它是VXLAN隧道的起點或終點:
- 在發送端,源VTEP將原始報文封裝成VXLAN報文,通過UDP發送到對端VTEP。
- 在接收端,VTEP將解開VXLAN報文,將原始的2層數據幀轉發給目的的接收方。
VTEP可以是獨立的網絡設備,例如交換機,也可以是部署在服務器上的虛擬設備。例如使用置頂交換機(TOR)作為VTEP時,VXLAN的網絡模型如下圖:
但顯然,在flannel中,VTEP的能力是通過linux的虛機網絡設備實現的。在VXLAN模式下,VTEP的角色由 flannel.1
虛擬網卡充當。
VXLAN模式
VXLAN是Flannel默認和推薦的模式。當我們使用默認配置安裝Flannel時,它會為每個節點分配一個24位子網,並在每個節點上創建兩張虛機網卡: cni0
和 flannel.1
。 cni0
是一個網橋設備,類似於 docker0
,節點上所有的Pod都通過veth pair的形式與 cni0
相連。 flannel.1
則是一個VXLAN類型的設備,充當VTEP的角色,實現對VXLAN報文的封包解包。
從內核3.7版本開始,Linux就開始支持VXLAN,到3.12版本,支持已經完備。
節點內通信
顯然,節點內的容器間通信通過 cni0
網橋就能完成,不涉及任何VXLAN報文的封包解包。例如在下面的圖例中,Node1的子網為10.244.0.1/24, PodA 10.244.0.20 和 PodB 10.224.0.21通過 cni0
網橋實現互通。
跨節點通信
下面重點分析一下跨節點的容器通信過程。假設有兩個節點Node1和Node2,其中Node1的PodA要跟Node2的PodB通信,則它們之間的通信過程如下圖所示:
大致概括一下整個過程:
- 發送端:在PodA中發起
ping 10.244.1.21
,ICMP
報文經過cni0
網橋后交由flannel.1
設備處理。flannel.1
設備是一個VXLAN類型的設備,負責VXLAN封包解包。 因此,在發送端,flannel.1
將原始L2報文封裝成VXLAN UDP報文,然后從eth0
發送。 - 接收端:Node2收到UDP報文,發現是一個VXLAN類型報文,交由
flannel.1
進行解包。根據解包后得到的原始報文中的目的IP,將原始報文經由cni0
網橋發送給PodB。
哪些IP要交由 flannel.1
處理
flanneld
從 etcd
中可以獲取所有節點的子網情況,以此為依據為各節點配置路由,將屬於非本節點的子網IP都路由到 flannel.1
處理,本節點的子網路由到 cni0
網橋處理。
[root@Node1 ~]# ip r ... 10.244.0.0/24 dev cni0 proto kernel scope link src 10.244.0.1 # Node1子網為10.224.0.0/24, 本機PodIP都交由cni0處理 10.244.1.0/24 via 10.244.1.0 dev flannel.1 onlink # Node2子網為10.224.1.0/24,Node2的PodID都交由flannel.1處理 ... 復制代碼
如果節點信息有變化, flanneld
也會同步的對路由信息做修改。
flannel.1
的封包過程
VXLAN的封包是將二層以太網幀封裝到四層UDP報文中的過程。
原始L2幀
要生成原始的L2幀, flannel.1
需要得知:
- 內層源/目的IP地址
- 內層源/目的MAC地址
內層的源/目的IP地址是已知的,即為PodA/PodB的PodIP,在圖例中,分別為10.224.0.20和10.224.1.20。 內層源/目的MAC地址要結合路由表和ARP表來獲取。根據路由表①得知:
- 下一跳地址是10.224.1.0,關聯ARP表②,得到下一跳的MAC地址,也就是目的MAC地址:
Node2_flannel.1_MAC
; - 報文要從
flannel.1
虛擬網卡發出,因此源MAC地址為flannel.1
的MAC地址。
要注意的是,這里ARP表的表項②並不是通過ARP學習得到的,而是 flanneld
預先為每個節點設置好的,由 flanneld
負責維護,沒有過期時間。
# 查看ARP表 [root@Node1 ~]# ip n | grep flannel.1 10.244.1.0 dev flannel.1 lladdr ba:74:f9:db:69:c1 PERMANENT # PERMANENT 表示永不過期 復制代碼
有了上面的信息, flannel.1
就可以構造出內層的2層以太網幀:
外層VXLAN UDP報文
要將原始L2幀封裝成VXLAN UDP報文, flannel.1
還需要填充源/目的IP地址。前面提到,VTEP是VXLAN隧道的起點或終點。因此,目的IP地址即為對端VTEP的IP地址,通過FDB表獲取。在FDB表③中,dst字段表示的即為VXLAN隧道目的端點(對端VTEP)的IP地址,也就是VXLAN DUP報文的目的IP地址。FDB表也是由 flanneld
在每個節點上預設並負責維護的。
FDB表(Forwarding database)用於保存二層設備中MAC地址和端口的關聯關系,就像交換機中的MAC地址表一樣。在二層設備轉發二層以太網幀時,根據FDB表項來找到對應的端口。例如cni0網橋上連接了很多veth pair網卡,當網橋要將以太網幀轉發給Pod時,FDB表根據Pod網卡的MAC地址查詢FDB表,就能找到其對應的veth網卡,從而實現聯通。
可以使用 bridge fdb show
查看FDB表:
[root@Node1 ~]# bridge fdb show | grep flannel.1 ba:74:f9:db:69:c1 dev flannel.1 dst 192.168.50.3 self permanent 復制代碼
源IP地址信息來自於 flannel.1
網卡設置本身,根據 local 192.168.50.2
可以得知源IP地址為192.168.50.2。
[root@Node1 ~]# ip -d a show flannel.1 6: flannel.1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue state UNKNOWN group default link/ether 32:02:78:2f:02:cb brd ff:ff:ff:ff:ff:ff promiscuity 0 vxlan id 1 local 192.168.50.2 dev eth0 srcport 0 0 dstport 8472 nolearning ageing 300 noudpcsum noudp6zerocsumtx noudp6zerocsumrx numtxqueues 1 numrxqueues 1 gso_max_size 65536 gso_max_segs 65535 inet 10.244.0.0/32 brd 10.244.0.0 scope global flannel.1 valid_lft forever preferred_lft forever inet6 fe80::3002:78ff:fe2f:2cb/64 scope link valid_lft forever preferred_lft forever 復制代碼
至此, flannel.1
已經得到了所有完成VXLAN封包所需的信息,最終通過 eth0
發送一個VXLAN UDP報文: Flannel的VXLAN模式通過靜態配置路由表,ARP表和FDB表的信息,結合VXLAN虛擬網卡
flannel.1
,實現了一個所有Pod同屬一個大二層網絡的VXLAN網絡模型。
host-gw模式
在上述的VXLAN的示例中,Node1和Node2其實是同一宿主機中的兩台使用橋接模式的虛機,也就是說它們在一個二層網絡中。在二層網絡互通的情況下,直接配置節點的三層路由即可互通,不需要使用VXLAN隧道。要使用host-gw模式,需要修改 ConfigMap kube-flannel-cfg
,將 Backend.Type
從vxlan改為host-gw,然后重啟所有kube-flannel Pod即可:
...
net-conf.json: |
{
"Network": "10.244.0.0/16", "Backend": { "Type": "host-gw" // <- 改成host-gw } } ... 復制代碼
host-gw模式下的通信過程如下圖所示:
在host-gw模式下,由於不涉及VXLAN的封包解包,不再需要
flannel.1
虛機網卡。 flanneld
負責為各節點設置路由 ,將對應節點Pod子網的下一跳地址指向對應的節點的IP,如圖中路由表①所示。
[root@Node1 ~]# ip r ... 10.244.0.0/24 dev cni0 proto kernel scope link src 10.244.0.1 10.244.1.0/24 via 192.168.50.3 dev eth0 # Node2子網的下一跳地址指向Node2的public ip。 ... 復制代碼
由於沒有封包解包帶來的消耗,host-gw是性能最好的。不過一般在雲環境下,都不支持使用host-gw的模式,在私有化部署的場景下,可以考慮。
參考
What is VXLAN
深入理解CNI
bridge man page
ip-route man page
ip-neighbour man page
flannel原理之vxlan模式