【轉】Docker網絡詳解及pipework源碼解讀與實踐


好文必轉

原文地址: http://www.infoq.com/cn/articles/docker-network-and-pipework-open-source-explanation-practice/

Docker 作為目前最火的輕量級容器技術,有很多令人稱道的功能,如Docker的鏡像管理。然而,Docker同樣有着很多不完善的地方,網絡 方面就是Docker比較薄弱的部分。因此,我們有必要深入了解Docker的網絡知識,以滿足更高的網絡需求。本文首先介紹了Docker自身的4種網 絡工作方式,然后通過3個樣例 —— 將Docker容器配置到本地網絡環境中、單主機Docker容器的VLAN划分、多主機Docker容器的VLAN划分,演示了如何使用pipework幫助我們進行復雜的網絡設置,以及pipework是如何工作的。

1. Docker的4種網絡模式

我們在使用docker run創建Docker容器時,可以用--net選項指定容器的網絡模式,Docker有以下4種網絡模式:

  • host模式,使用--net=host指定。
  • container模式,使用--net=container:NAME_or_ID指定。
  • none模式,使用--net=none指定。
  • bridge模式,使用--net=bridge指定,默認設置。

下面分別介紹一下Docker的各個網絡模式。

1.1 host模式

眾 所周知,Docker使用了Linux的Namespaces技術來進行資源隔離,如PID Namespace隔離進程,Mount Namespace隔離文件系統,Network Namespace隔離網絡等。一個Network Namespace提供了一份獨立的網絡環境,包括網卡、路由、Iptable規則等都與其他的Network Namespace隔離。一個Docker容器一般會分配一個獨立的Network Namespace。但如果啟動容器的時候使用host模式,那么這個容器將不會獲得一個獨立的Network Namespace,而是和宿主機共用一個Network Namespace。容器將不會虛擬出自己的網卡,配置自己的IP等,而是使用宿主機的IP和端口。

例如,我們在 10.10.101.105/24的機器上用host模式啟動一個含有web應用的Docker容器,監聽tcp80端口。當我們在容 器中執行任何類似ifconfig命令查看網絡環境時,看到的都是宿主機上的信息。而外界訪問容器中的應用,則直接使用10.10.101.105:80 即可,不用任何NAT轉換,就如直接跑在宿主機中一樣。但是,容器的其他方面,如文件系統、進程列表等還是和宿主機隔離的。

1.2 container模式

在 理解了host模式后,這個模式也就好理解了。這個模式指定新創建的容器和已經存在的一個容器共享一個Network Namespace,而不是和宿主機共享。新創建的容器不會創建自己的網卡,配置自己的IP,而是和一個指定的容器共享IP、端口范圍等。同樣,兩個容器 除了網絡方面,其他的如文件系統、進程列表等還是隔離的。兩個容器的進程可以通過lo網卡設備通信。

1.3 none模式

這個模式和前兩個不同。在這種模式下,Docker容器擁有自己的Network Namespace,但是,並不為Docker容器進行任何網絡配置。也就是說,這個Docker容器沒有網卡、IP、路由等信息。需要我們自己為Docker容器添加網卡、配置IP等。

1.4 bridge模式

bridge模式是Docker默認的網絡設置,此模式會為每一個容器分配Network Namespace、設置IP等,並將一個主機上的Docker容器連接到一個虛擬網橋上。下面着重介紹一下此模式。

1.4.1 bridge模式的拓撲

當Docker server啟動時,會在主機上創建一個名為docker0的虛擬網橋,此主機上啟動的Docker容器會連接到這個虛擬網橋上。虛擬網橋的工作方式和物 理交換機類似,這樣主機上的所有容器就通過交換機連在了一個二層網絡中。接下來就要為容器分配IP了,Docker會從RFC1918所 定義的私有IP網段中,選擇一個和宿主機不同的IP地址和子網分配給docker0,連接到docker0的容器就從這個子網中選擇一個未占用的IP使 用。如一般Docker會使用172.17.0.0/16這個網段,並將172.17.42.1/16分配給docker0網橋(在主機上使用 ifconfig命令是可以看到docker0的,可以認為它是網橋的管理接口,在宿主機上作為一塊虛擬網卡使用)。單機環境下的網絡拓撲如下,主機地址 為10.10.101.105/24。

Docker完成以上網絡配置的過程大致是這樣的:

  1. 在主機上創建一對虛擬網卡veth pair設備。veth設備總是成對出現的,它們組成了一個數據的通道,數據從一個設備進入,就會從另一個設備出來。因此,veth設備常用來連接兩個網絡設備。
  2. Docker將veth pair設備的一端放在新創建的容器中,並命名為eth0。另一端放在主機中,以veth65f9這樣類似的名字命名,並將這個網絡設備加入到docker0網橋中,可以通過brctl show命令查看。

     

  3. 從docker0子網中分配一個IP給容器使用,並設置docker0的IP地址為容器的默認網關。

網絡拓撲介紹完后,接着介紹一下bridge模式下容器是如何通信的。

1.4.2 bridge模式下容器的通信

在bridge模式下,連在同一網橋上的容器可以相互通信(若出於安全考慮,也可以禁止它們之間通信,方法是在DOCKER_OPTS變量中設置--icc=false,這樣只有使用--link才能使兩個容器通信)。

容器也可以與外部通信,我們看一下主機上的Iptable規則,可以看到這么一條

-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE

這 條規則會將源地址為172.17.0.0/16的包(也就是從Docker容器產生的包),並且不是從docker0網卡發出的,進行源地址轉 換,轉換成主機網卡的地址。這么說可能不太好理解,舉一個例子說明一下。假設主機有一塊網卡為eth0,IP地址為10.10.101.105/24,網 關為10.10.101.254。從主機上一個IP為172.17.0.1/16的容器中ping百度(180.76.3.151)。IP包首先從容器發 往自己的默認網關docker0,包到達docker0后,也就到達了主機上。然后會查詢主機的路由表,發現包應該從主機的eth0發往主機的網關 10.10.105.254/24。接着包會轉發給eth0,並從eth0發出去(主機的ip_forward轉發應該已經打開)。這時候,上面的 Iptable規則就會起作用,對包做SNAT轉換,將源地址換為eth0的地址。這樣,在外界看來,這個包就是從10.10.101.105上發出來 的,Docker容器對外是不可見的。

那么,外面的機器是如何訪問Docker容器的服務呢?我們首先用下面命令創建一個含有web應用的容器,將容器的80端口映射到主機的80端口。

docker run -d --name web -p 80:80 fmzhen/simpleweb

然后查看Iptable規則的變化,發現多了這樣一條規則:

-A DOCKER ! -i docker0 -p tcp -m tcp --dport 80 -j DNAT --to-destination 172.17.0.5:80

此條規則就是對主機eth0收到的目的端口為80的tcp流量進行DNAT轉換,將流量發往172.17.0.5:80,也就是我們上面創建的Docker容器。所以,外界只需訪問10.10.101.105:80就可以訪問到容器中得服務。

除此之外,我們還可以自定義Docker使用的IP地址、DNS等信息,甚至使用自己定義的網橋,但是其工作方式還是一樣的。

2. pipework的使用以及源碼分析

Docker自身的網絡功能比較簡單,不能滿足很多復雜的應用場景。因此,有很多開源項目用來改善Docker的網絡功能,如pipeworkweaveflannel等。這里,就先介紹一下pipework的使用和工作原理。

pipework是由Docker的工程師Jérôme Petazzoni開發的一個Docker網絡配置工具,由200多行shell實現,方便易用。下面用三個場景來演示pipework的使用和工作原理。

2.1 將Docker容器配置到本地網絡環境中

為了使本地網絡中的機器和Docker容器更方便的通信,我們經常會有將Docker容器配置到和主機同一網段的需求。這個需求其實很容易實現,我們只要將Docker容器和主機的網卡橋接起來,再給Docker容器配上IP就可以了。

下面我們來操作一下,我主機A地址為10.10.101.105/24,網關為10.10.101.254,需要給Docker容器的地址配置為10.10.101.150/24。在主機A上做如下操作:

#安裝pipework
git clone https://github.com/jpetazzo/pipework
cp ~/pipework/pipework /usr/local/bin/
#啟動Docker容器。
docker run -itd --name test1 ubuntu /bin/bash
#配置容器網絡,並連到網橋br0上。網關在IP地址后面加@指定。
#若主機環境中存在dhcp服務器,也可以通過dhcp的方式獲取IP
#pipework br0 test1 dhcp
pipework br0 test1 10.10.101.150/24@10.10.101.254
#將主機eth0橋接到br0上,並把eth0的IP配置在br0上。這里由於是遠程操作,中間網絡會斷掉,所以放在一條命令中執行。
ip addr add 10.10.101.105/24 dev br0; \
    ip addr del 10.10.101.105/24 dev eth0; \
    brctl addif br0 eth0; \
    ip route del default; \
    ip route add default gw 10.10.101.254 dev br0

完成上述步驟后,我們發現Docker容器已經可以使用新的IP和主機網絡里的機器相互通信了。

pipework工作原理分析

那 么容器到底發生了哪些變化呢?我們docker attach到test1上,發現容器中多了一塊eth1的網卡,並且配置了10.10.101.150/24的IP,而且默認路由也改為了 10.10.101.254。這些都是pipework幫我們配置的。通過查看源代碼,可以發現pipework br0 test1 10.10.101.150/24@10.10.101.254是由以下命令完成的(這里只列出了具體執行操作的代碼)。

#創建br0網橋
#若ovs開頭,則創建OVS網橋 ovs-vsctl add-br ovs*
brctl addbr $IFNAME
#創建veth pair,用於連接容器和br0
ip link add name $LOCAL_IFNAME mtu $MTU type veth peer name $GUEST_IFNAME mtu $MTU
#找到Docker容器test1在主機上的PID,創建容器網絡命名空間的軟連接
DOCKERPID=$(docker inspect --format='{{ .State.Pid }}' $GUESTNAME)
ln -s /proc/$NSPID/ns/net /var/run/netns/$NSPID
#將veth pair一端放入Docker容器中,並設置正確的名字eth1
ip link set $GUEST_IFNAME netns $NSPID
ip netns exec $NSPID ip link set $GUEST_IFNAME name $CONTAINER_IFNAME
#將veth pair另一端加入網橋
#若為OVS網橋則為 ovs-vsctl add-port $IFNAME $LOCAL_IFNAME ${VLAN:+"tag=$VLAN"}
brctl addif $IFNAME $LOCAL_IFNAME
#為新增加的容器配置IP和路由
ip netns exec $NSPID ip addr add $IPADDR dev $CONTAINER_IFNAME
ip netns exec $NSPID ip link set $CONTAINER_IFNAME up
ip netns exec $NSPID ip route delete default
ip netns exec $NSPID ip route add $GATEWAY/32 dev $CONTAINER_IFNAME
  1. 首先pipework檢查是否存在br0網橋,若不存在,就自己創建。若以"ovs"開頭,就會創建OpenVswitch網橋,以"br"開頭,創建Linux bridge。
  2. 創建veth pair設備,用於為容器提供網卡並連接到br0網橋。
  3. 使 用docker inspect找到容器在主機中的PID,然后通過PID將容器的網絡命名空間鏈接到/var/run/netns/目錄下。這么做的目的是,方便在主機 上使用ip netns命令配置容器的網絡。因為,在Docker容器中,我們沒有權限配置網絡環境。
  4. 將之前創建的veth pair設備分別加入容器和網橋中。在容器中的名稱默認為eth1,可以通過pipework的-i參數修改該名稱。
  5. 然 后就是配置新網卡的IP。若在IP地址的后面加上網關地址,那么pipework會重新配置默認路由。這樣容器通往外網的流量會經由新配置的 eth1出去,而不是通過eth0和docker0。(若想完全拋棄自帶的網絡設置,在啟動容器的時候可以指定--net=none)

以上就是pipework配置Docker網絡的過程,這和Docker的bridge模式有着相似的步驟。事實上,Docker在實現上也采用了相同的底層機制。

通 過源代碼,可以看出,pipework通過封裝Linux上的ip、brctl等命令,簡化了在復雜場景下對容器連接的操作命令,為我們配置復雜 的網絡拓撲提供了一個強有力的工具。當然,如果想了解底層的操作,我們也可以直接使用這些Linux命令來完成工作,甚至可以根據自己的需求,添加額外的 功能。

2.2 單主機Docker容器VLAN划分

pipework不僅可以使用Linux bridge連接Docker容器,還可以與OpenVswitch結合,實現Docker容器的VLAN划分。下面,就來簡單演示一下,在單機環境下,如何實現Docker容器間的二層隔離。

為了演示隔離效果,我們將4個容器放在了同一個IP網段中。但實際他們是二層隔離的兩個網絡,有不同的廣播域。

#在主機A上創建4個Docker容器,test1、test2、test3、test4
docker run -itd --name test1 ubuntu /bin/bash
docker run -itd --name test2 ubuntu /bin/bash
docker run -itd --name test3 ubuntu /bin/bash
docker run -itd --name test4 ubuntu /bin/bash
#將test1,test2划分到一個vlan中,vlan在mac地址后加@指定,此處mac地址省略。
pipework ovs0 test1 192.168.0.1/24 @100
pipework ovs0 test2 192.168.0.2/24 @100
#將test3,test4划分到另一個vlan中
pipework ovs0 test3 192.168.0.3/24 @200
pipework ovs0 test4 192.168.0.4/24 @200

完成上述操作后,使用docker attach連到容器中,然后用ping命令測試連通性,發現test1和test2可以相互通信,但與test3和test4隔離。這樣,一個簡單的VLAN隔離容器網絡就已經完成。

由於OpenVswitch本身支持VLAN功能,所以這里pipework所做的工作和之前介紹的基本一樣,只不過將Linux bridge替換成了OpenVswitch,在將veth pair的一端加入ovs0網橋時,指定了tag。底層操作如下:

ovs-vsctl add-port ovs0 veth* tag=100

2.3 多主機Docker容器的VLAN划分

上 面介紹完了單主機上VLAN的隔離,下面我們將情況延伸到多主機的情況。有了前面兩個例子做鋪墊,這個也就不難了。為了實現這個目的,我們把宿主 機上的網卡橋接到各自的OVS網橋上,然后再為容器配置IP和VLAN就可以了。我們實驗環境如下,主機A和B各有一塊網卡eth0,IP地址分別為 10.10.101.105/24、10.10.101.106/24。在主機A上創建兩個容器test1、test2,分別在VLAN 100和VLAN 200上。在主機B上創建test3、test4,分別在VLAN 100和VLAN 200 上。最終,test1可以和test3通信,test2可以和test4通信。

#在主機A上
#創建Docker容器
docker run -itd --name test1 ubuntu /bin/bash
docker run -itd --name test2 ubuntu /bin/bash
#划分VLAN
pipework ovs0 test1 192.168.0.1/24 @100
pipework ovs0 test2 192.168.0.2/24 @200
#將eth0橋接到ovs0上
ip addr add 10.10.101.105/24 dev ovs0; \
    ip addr del 10.10.101.105/24 dev eth0; \
    ovs-vsctl add-port ovs0 eth0; \
    ip route del default; \
    ip route add default gw 10.10.101.254 dev ovs0
    
#在主機B上
#創建Docker容器
docker run -itd --name test3 ubuntu /bin/bash
docker run -itd --name test4 ubuntu /bin/bash
#划分VLAN
pipework ovs0 test1 192.168.0.3/24 @100
pipework ovs0 test2 192.168.0.4/24 @200
#將eth0橋接到ovs0上
ip addr add 10.10.101.106/24 dev ovs0; \
    ip addr del 10.10.101.106/24 dev eth0; \
    ovs-vsctl add-port ovs0 eth0; \
    ip route del default; \
    ip route add default gw 10.10.101.254 dev ovs0

完成上面的步驟后,主機A上 的test1和主機B上的test3容器就划分到了一個VLAN中,並且與主機A上的test2和主機B上的test4 隔離(主機eth0網卡需要設置為混雜模式,連接主機的交換機端口應設置為trunk模式,即允許VLAN 100和VLAN 200的包通過)。拓撲圖如下所示(省去了Docker默認的eth0網卡和主機上的docker0網橋):

除此之外,pipework還支持使用macvlan設備、設置網卡MAC地址等功能。不過,pipework有一個缺陷,就是配置的容器在關掉重啟后,之前的設置會丟失。

3. 總結

通 過上面的介紹,我相信大家對Docker的網絡已經有了一定的了解。對於一個基本應用而言,Docker的網絡模型已經很不錯了。然而,隨着雲計 算和微服務的興起,我們不能永遠停留在使用基本應用的級別上,我們需要性能更好且更靈活的網絡功能。pipework正好滿足了我們這樣的需求,從上面的 樣例中,我們可以看到pipework的方便之處。但是,同時也應注意到,pipework並不是一套解決方案,它只是一個網絡配置工具,我們可以利用它 提供的強大功能,幫助我們構建自己的解決方案。

作者簡介

馮明振,浙江大學SEL實驗室碩士研究生,目前在雲平台團隊從事科研和開發工作。浙大團隊對PaaS,Docker,大數據和主流開源雲計算技術有深入的研究和二次開發經驗,團隊現將部分技術文章貢獻出來,希望能對讀者有所幫助。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM