一、前言
Docker作為目前最火的輕量級容器技術,有很多令人稱道的功能,如Docker的鏡像管理。然而,Docker同樣有着很多不完善的地方,網絡方面就是Docker比較薄弱的部分。因此,我們有必要深入了解Docker的網絡知識,以滿足更高的網絡需求。
我們在使用docker run創建Docker容器時,可以用--net選項指定容器的網絡模式,Docker有以下4種網絡模式:
- host模式,使用--net=host指定。
容器將不會虛擬出自己的網卡,配置自己的IP等,而是使用宿主機的IP和端口。
- container模式,使用--net=container:NAME_or_ID指定。
創建的容器不會創建自己的網卡,配置自己的IP,而是和一個指定的容器共享IP、端口范圍。
- none模式,使用--net=none指定。
該模式關閉了容器的網絡功能。
- bridge模式,使用--net=bridge指定,默認設置。
此模式會為每一個容器分配、設置IP等,並將容器連接到一個docker0虛擬網橋,通過docker0網橋以及Iptables nat表配置與宿主機通信。
注意:使用docker network ls命令列出這些docker內置的網絡模式。
Docker 網絡模型
二、host模式
眾所周知,Docker使用了Linux的Namespaces技術來進行資源隔離,如PID Namespace隔離進程,Mount Namespace隔離文件系統,Network Namespace隔離網絡等。一個Network Namespace提供了一份獨立的網絡環境,包括網卡、路由、Iptable規則等都與其他的Network Namespace隔離。一個Docker容器一般會分配一個獨立的Network Namespace。但如果啟動容器的時候使用host模式,那么這個容器將不會獲得一個獨立的Network Namespace,而是和宿主機共用一個Network Namespace。容器將不會虛擬出自己的網卡,配置自己的IP等,而是使用宿主機的IP和端口。
例如,我們在10.10.101.105/24的機器上用host模式啟動一個含有web應用的Docker容器,監聽tcp80端口。
當我們在容器中執行任何類似ifconfig命令查看網絡環境時,看到的都是宿主機上的信息。而外界訪問容器中的應用,則直接使用10.10.101.105:80即可,不用任何NAT轉換,就如直接跑在宿主機中一樣。但是,容器的其他方面,如文件系統、進程列表等還是和宿主機隔離的。
下面關於網絡命令空間的介紹來源:https://yq.aliyun.com/articles/53624

那么什么是網絡名稱空間?一般的說法是包括了Linux共享的一組網絡接口和路由表條目的裝置。您可以修改路由表條目使用策略路由。(這里有我寫的介紹和可能的策略路由用例),但這並沒有從根本上改變網絡接口和路由表/條目共享整個操作系統。網絡名字空間改變這一基本假設。通過網絡名字空間,你能有不同並獨立的網絡接口和路由表,它們各自獨立運作 這個概念通過一些例子來說明可能是最好的。沿途我會介紹一些新想法。首先,我需要提供一些假設。 假設 在這個例子中,我會使用Ubuntu Server 12.04.3 LTS.請注意不同的Linux發行版對網絡名字空間支持上的不同。Ubuntu支持這個,但是RedHat不支持。(我不確定Fedora,如果你知道,可以在評論中說出來。)如果你想使用網絡名字空間,請確保你的Linux發行版支持。 另外,我回假設你使用root賬戶運行,或者你會在必要的時候加上sudo來執行命令行。 創建和列出網絡名字空間 創建一個網絡名字空間是相當容易的。僅僅需要使用這個命令: 1 ip netns add <new namespace name> 打個比方,你想要創建一個名為“blue”的名字空間。你會使用這個命令: 1 ip netns add blue 使用這個命令驗證網絡名字空間是否創建: 1 ip netns list 你應該能看到你的網絡名字空間被列出,你可以使用它們了。 給網絡名字空間分配接口 創建網絡名字空間僅僅是個開始,接下來的部分是給名字空間指定接口。然后為網絡連接配置這些接口。有一個注意,就是在我之前探索網絡名字空間的時候發現,你無法把物理接口分配給一個名字空間。到底怎樣才呢個使用它們呢,然后呢? 原來你只能分配虛擬以太網接口(veth)到網絡名稱空間。虛擬以太網接口是一個有趣的結構。它總是一對一對的,他們像一個相連的管道——無論什么從其中一個veth接口進去,就會從另一個等同的接口出來。因此,您可以使用veth接口把一個網絡名名字空間鏈接到存在物理接口的“默認”或“全局”網絡名字空間。 讓我們來看看這是如何實現的。首先,您要創建一對veth: 1 ip link add veth0 type veth peer name veth1 我發現一些站點重復這個命令去創建veth1然后鏈接到veth0,但是我的測試表明,只要使用上面這個命令,會創建一對端口,並且自動建立連接。當然,你可以用其它名字代替veth0和veth1,如果你需要的話。 你可以使用這個命令驗證veth對被創建。 1 ip link list 你應該看到一對veth接口(使用你在上面的命令中指定的名稱)列出。現在它們都屬於”默認”或“全局”名字空間,和物理接口一道。 假設你想把全局名字空間鏈接到blue名字空間。這樣做,你需要移動一個veth接口道blue名字空間中,可以使用這個命令。 1 ip link set veth1 netns blue 如果你再次運行ip link list 命令,你會看到veth1接口從列表中消失了。現在它在blue名字空間中,因此你需要運行下面的命令來看。 1 ip netns exec blue ip link list 哇哦!這是一個有點復雜的命令,讓我們慢慢講: 在第一部分,ip nets exec,這是在不同網絡名字空間執行命令的方法。 接下來是這個命令應該運行在的特定名稱空間。(在這個例子中,是blue名字空間) 最后,你需要實際的命令在遠程名字空間中執行。在這個例子中,你想要查看在blue名字空間的接口,因此你運行 ip link list。 當你運行那個命令,你就能看到一個回環接口和你剛才移入的veth1接口。 在網絡名字空間配置接口 現在,veth1已經移動到藍色的名稱空間,我們需要去實際配置那個接口。再一次,我們會使用 ip netns exec 命令,這一次在blue名字空間中配置veth1接口。 1 ip netns exec blue ifconfig veth1 10.1.1.1/24 up 和之前一樣,這個命令的格式如下: 1 ip netns exec <network namespace> <command to run against that namespace> 在這個例子里,你使用ifconfig給veth1接口指定了一個IP地址,並且開啟了這個接口。(注解:你可以使用 ip addr , ip route ,以及 ip link 命令來完成相同的事情) 一旦veth1接口開啟,你能僅僅通過一些不同的命令驗證blue名字空間中的網絡設置是完全隔離的。打個比方,讓我們確定你的”全局”名字空間有物理接口在 172.16.1.0/24 范圍,你的veth1接口在一個隔離的名字空間,並且分配了10.1.1.0/24范圍。你可以使用這些命令驗證網絡名字空間是如何保證網絡配置隔離的: ip addr list 在全局名字空間沒有顯示任何10.1.1.0/24有關的接口或者地址。 ip netns exec blue ip addr list 將僅僅顯示10.1.1.0/24有關的接口和地址,也不會顯示任何來自全局名字空間的接口或地址。 同樣的,ip route list 在每個名稱空間將顯示不同的路由表條目,包括不同的默認網關。 鏈接網絡名字空間到物理網絡 這部分花了我一些時間。我沒法解釋為什么,但是它這樣運作了。一旦我搞懂了,一旦我搞懂了,它是顯而易見的。讓網絡名字空間鏈接到物理網絡的就是使用網橋。在我的例子中,我是用一個Open vSwitch(OVS)橋,但是一個標准Linux網橋也能工作的很好。把一個或多個物理接口和veth接口一樣放到網橋中,然后,啪,它們就能用了。當然,如果你有不同的名字空間,你可能想要/需要將它們連接到不同的物理網絡或不同的vlan。
三、container模式
在理解了host模式后,這個模式也就好理解了。這個模式指定新創建的容器和已經存在的一個容器共享一個Network Namespace,而不是和宿主機共享。新創建的容器不會創建自己的網卡,配置自己的IP,而是和一個指定的容器共享IP、端口范圍等。同樣,兩個容器除了網絡方面,其他的如文件系統、進程列表等還是隔離的。兩個容器的進程可以通過lo網卡設備通信。
聯盟式容器是指使用某個已存在容器的網絡接口的容器,接口被聯盟內的各容器共享使用;因此,聯盟式容器彼此間完全隔離,例如:
聯盟式容器彼此雖然共享同一個網絡名稱空間,但其它名稱空間如User、Mount等還是隔離的。
聯盟式容器彼此間存在端口沖突的可能性,因此,通常只會在多個容器上的程序需要程序loopback接口互相通信,或對已存的容器的網絡屬性進行監控時才使用此模式的網絡模型。
bridge模式:(默認沒有設置網絡模式工作在bridge模式),我們啟動兩個容器,兩個容器之間互相隔離,並擁有自己的私有IP,並可以互相通信,等會會介紹:
docker run --name b1 -it --rm busybox
docker run --name b2 -it --rm busybox
container模式:
docker run --name b1 -it --rm busybox
docker run --name b2 -it --rm --network container:b1 busybox
此時我們在b2中使用ifconfig命令,可以看到b2與b1IP相同,彼此之間也可以通信,效果如同一個主機上的兩個進程。
四、none模式
此模式下容器不參與網絡通信,運行於此類容器中的進程僅能訪問本地環回接口,僅適用於進程無須網絡通信的場景中,例如備份,進程診斷及各種離線任務等。
--network none:設置模式容器工作在none模式下。
在此模式下使用ifconfig -a 顯示只有lo網卡。
五、Bridge模式(默認網絡模式)
橋接式容器一般擁有兩個接口:一個環回接口和一個連接至主機上某橋設備的以太網接口,在上面的圖片就可以看到。
docker daemon啟動時默認會創建一個名為docker0的網絡橋,docker0網卡扮演二層交換機與網卡設備,不給IP就是交換機,給了IP即可以當交換機也可以當網卡。
並且我們以后在此模式下創建的容器為橋接式容器,我們每次啟動一個容器,就會為這個容器分配一對網卡設備,其中一個網卡在容器上,另外一個網卡在宿主機上,在宿主機上的網卡接口橋接至docker0。
--network bridge:設置容器工作在bridge模式下,即為將容器接口添加至docker0橋。
docker0橋為NAT橋,因此,橋接式容器可通過此橋接口訪問外部網絡,但防火牆規則阻止一切從外部網絡訪問橋接式容器的請求,當然也有解決辦法,后面會介紹外部訪問容器。
這里容器使用獨立network Namespace,並連接到docker0虛擬網卡(默認模式)。通過docker0網橋以及Iptables nat表配置與宿主機通信;bridge模式是Docker默認的網絡設置,此模式會為每一個容器分配Network Namespace、設置IP等,並將一個主機上的Docker容器連接到一個虛擬網橋上。
常用參數的用法
--name:設置容器名 docker run --name t1 -it busybox:latest --rm:退出容器即刻刪除容器 docker run --name Nginx -it --network bridge --rm nginx --network:設置網絡模式,默認bridge模式 docker run --name t1 -it --network bridge --rm busybox:latest --hostname:為容器設置指定主機名 docker run --name t1 -it --network bridge --hostname t1.magedu.com --rm busybox:latest 注意:使用hostname命令查看主機名 --dns:設置dns服務器 docker run --name t1 -it --network bridge --hostname t1.magedu.com --dns 114.114.114.114 --rm busybox:latest --dns-search:設置dns搜索域 docker run --name t1 -it --network bridge --hostname t1.magedu.com --dns 114.114.114.114 --dns-search ilinux.io --rm busybox:latest --add-host:在/etc/hosts文件中添加主機與ip的解析記錄 docker run --name t1 -it --network bridge --hostname t1.magedu.com --dns 114.114.114.114 --dns-search ilinux.io --rm --add-host "docker.com:172.16.0.100" busybox:latest
六、 bridge模式的拓撲
當Docker server啟動時,會在主機上創建一個名為docker0的虛擬網橋,此主機上啟動的Docker容器會連接到這個虛擬網橋上。虛擬網橋的工作方式和物理交換機類似,這樣主機上的所有容器就通過交換機連在了一個二層網絡中。接下來就要為容器分配IP了,Docker會從RFC1918所定義的私有IP網段中,選擇一個和宿主機不同的IP地址和子網分配給docker0,連接到docker0的容器就從這個子網中選擇一個未占用的IP使用。如一般Docker會使用172.17.0.0/16這個網段,並將172.17.42.1/16分配給docker0網橋(在主機上使用ifconfig命令是可以看到docker0的,可以認為它是網橋的管理接口,在宿主機上作為一塊虛擬網卡使用)。單機環境下的網絡拓撲如下,主機地址為10.10.101.105/24。
Docker完成以上網絡配置的過程大致是這樣的:
1. 在主機上創建一對虛擬網卡veth pair設備。veth設備總是成對出現的,它們組成了一個數據的通道,數據從一個設備進入,就會從另一個設備出來。因此,veth設備常用來連接兩個網絡設備。
2. Docker將veth pair設備的一端放在新創建的容器中,並命名為eth0。另一端放在主機中,以veth65f9這樣類似的名字命名,並將這個網絡設備加入到docker0網橋中,可以通過brctl show命令查看。
3. 從docker0子網中分配一個IP給容器使用,並設置docker0的IP地址為容器的默認網關。
七、bridge模式下容器的通信
在bridge模式下,連在同一網橋上的容器可以相互通信(若出於安全考慮,也可以禁止它們之間通信,方法是在DOCKER_OPTS變量中設置–icc=false,這樣只有使用–link才能使兩個容器通信)。
Docker可以開啟容器間通信(意味着默認配置--icc=true),也就是說,宿主機上的所有容器可以不受任何限制地相互通信,這可能導致拒絕服務攻擊。進一步地,Docker可以通過--ip_forward和--iptables兩個選項控制容器間、容器和外部世界的通信。
容器也可以與外部通信,我們看一下主機上的Iptable規則,可以看到這么一條(查看規則:iptables -t nat -vnL):
-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE
這條規則會將源地址為172.17.0.0/16的包(也就是從Docker容器產生的包),並且不是從docker0網卡發出的,進行源地址轉換,轉換成主機網卡的地址。這么說可能不太好理解,舉一個例子說明一下。假設主機有一塊網卡為eth0,IP地址為10.10.101.105/24,網關為10.10.101.254。從主機上一個IP為172.17.0.1/16的容器中ping百度(180.76.3.151)。IP包首先從容器發往自己的默認網關docker0,包到達docker0后,也就到達了主機上。然后會查詢主機的路由表,發現包應該從主機的eth0發往主機的網關10.10.105.254/24。接着包會轉發給eth0,並從eth0發出去(主機的ip_forward轉發應該已經打開)。這時候,上面的Iptable規則就會起作用,對包做SNAT轉換,將源地址換為eth0的地址。這樣,在外界看來,這個包就是從10.10.101.105上發出來的,Docker容器對外是不可見的。
上面添加規則來實現外部訪問略為麻煩,我們還有一種更好的方法,端口映射:
為docker run命令使用-p選項即可實現端口映射,無須手動添加規則
-p選項的使用格式 -p <containerPort> ---將指定的容器端口映射至主機所有地址的一個動態端口(隨機端口) -p <hostPort>:<containerPort> ---將容器端口<containerPort>映射至指定的主機端口<hostPort> -p <ip>::<containerPort> ---將指定的容器端口<containerPort>映射至主機指定<ip>的動態端口 -p <ip>:<hostPort>:<containerPort> ---將指定的容器端口<containerPort>映射至主機指定<ip>的端口<hostPort> "動態端口"指隨機端口,具體的映射結果可使用docker port命令查看
那么,外面的機器是如何訪問Docker容器的服務呢?我們首先用下面命令創建一個含有web應用的容器,將容器的80端口映射到主機的80端口。
docker run --name=nginx_bridge --net=bridge -p 80:80 -d nginx
然后查看Iptable規則的變化,發現多了這樣一條規則:
-A DOCKER ! -i docker0 -p tcp -m tcp --dport 80 -j DNAT --to-destination 172.17.0.2:80
此條規則就是對主機eth0收到的目的端口為80的tcp流量進行DNAT轉換,將流量發往172.17.0.2:80,也就是我們上面創建的Docker容器。所以,外界只需訪問10.10.101.105:80就可以訪問到容器中的服務。
除此之外,我們還可以自定義Docker使用的IP地址、DNS等信息,甚至使用自己定義的網橋,但是其工作方式還是一樣的。
參考:
https://www.cnblogs.com/zuxing/articles/8780661.html
https://yq.aliyun.com/articles/53624
https://www.cnblogs.com/jsonhc/p/7823286.html