一篇文章為你圖解Kubernetes網絡通信原理


本文來自51cto因出現文章被刪除提示,為避免丟失將其復制備查

Kubernetes對集群內部的網絡進行了重新抽象,以實現整個集群網絡扁平化。我們可以理解網絡模型時,可以完全抽離物理節點去理解,我們用圖說話,先有基本印象。

名詞解釋

1、網絡的命名空間:Linux在網絡棧中引入網絡命名空間,將獨立的網絡協議棧隔離到不同的命令空間中,彼此間無法通信;docker利用這一特性,實現不容器間的網絡隔離。

2、Veth設備對:也叫虛擬網絡接口對。Veth設備對的引入是為了實現在不同網絡命名空間的通信。

3、Iptables/Netfilter:Netfilter負責在內核中執行各種掛接的規則(過濾、修改、丟棄等),運行在內核 模式中;Iptables模式是在用戶模式下運行的進程,負責協助維護內核中Netfilter的各種規則表;通過二者的配合來實現整個Linux網絡協議棧中靈活的數據包處理機制。

4、網橋:網橋是一個二層網絡設備,通過網橋可以將linux支持的不同的端口連接起來,並實現類似交換機那樣的多對多的通信。

5、路由:Linux系統包含一個完整的路由功能,當IP層在處理數據發送或轉發的時候,會使用路由表來決定發往哪里。

令人頭大的網絡模型

Kubernetes對集群內部的網絡進行了重新抽象,以實現整個集群網絡扁平化。我們可以理解網絡模型時,可以完全抽離物理節點去理解,我們用圖說話,先有基本印象。

 

 

其中,重點講解以下幾個關鍵抽象概念。

一個Service

Service是Kubernetes為為屏蔽這些后端實例(Pod)的動態變化和對多實例的負載均衡而引入的資源對象。Service通常與deployment綁定,定義了服務的訪問入口地址,應用(Pod)可以通過這個入口地址訪問其背后的一組由Pod副本組成的集群實例。Service與其后端Pod副本集群之間則是通過Label Selector來實現映射。

Service的類型(Type)決定了Service如何對外提供服務,根據類型不同,服務可以只在Kubernetes cluster中可見,也可以暴露到集群外部。Service有三種類型,ClusterIP,NodePort和LoadBalancer。具體的使用場景會在下文中進行闡述。

在測試環境查看:

$ kubectl get svc --selector app=nginx 
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE 
nginx ClusterIP 172.19.0.166 <none> 80/TCP 1m 
$ kubectl describe svc nginx 
Name: nginx 
Namespace: default 
Labels: app=nginx 
Annotations: <none> 
Selector: app=nginx 
Type: ClusterIP 
IP: 172.19.0.166 
Port: <unset> 80/TCP 
TargetPort: 80/TCP 
Endpoints: 172.16.2.125:80,172.16.2.229:80 
Session Affinity: None 
Events: <none> 

上述信息中該svc后端代理了2個Pod實例:172.16.2.125:80,172.16.2.229:80

二個IP

Kubernetes為描述其網絡模型的IP對象,抽象出Cluster IP和Pod IP的概念。

PodIP是Kubernetes集群中每個Pod的IP地址。它是Docker Engine 根據docker0網橋的IP地址段進行分配的,是一個虛擬的二層網絡。Kubernetes中Pod間能夠彼此直接通訊,Pod里的容器訪問另外一個Pod里的容器,是通過Pod IP所在進行通信。

Cluster IP僅作用於Service,其沒有實體對象所對應,因此Cluster IP無法被ping通。它的作用是為Service后端的實例提供統一的訪問入口。當訪問ClusterIP時,請求將被轉發到后端的實例上,默認是輪詢方式。Cluster IP和Service一樣由kube-proxy組件維護,其實現方式主要有兩種,iptables和IPVS。在1.8版本后kubeproxy開始支持IPVS方式。在上例中,SVC的信息中包含了Cluster IP。

這里未列出nodeip概念,由於其本身是物理機的網卡IP。因此可理解為nodeip就是物理機IP。

三個Port

在Kubernetes中,涉及容器,Pod,Service,集群各等多個層級的對象間的通信,為在網絡模型中區分各層級的通信端口,這里對Port進行了抽象。

Port

該Port非一般意義上的TCP/IP中的Port概念,它是特指Kubernetes中Service的port,是Service間的訪問端口,例如Mysql的Service默認3306端口。它僅對進群內容器提供訪問權限,而無法從集群外部通過該端口訪問服務。

nodePort

nodePort為外部機器提供了訪問集群內服務的方式。比如一個Web應用需要被其他用戶訪問,那么需要配置type=NodePort,而且配置nodePort=30001,那么其他機器就可以通過瀏覽器訪問scheme://node:30001訪問到該服務,例如http://node:30001。

targetPort

targetPort是容器的端口(最根本的端口入口),與制作容器時暴露的端口一致(DockerFile中EXPOSE),例如docker.io官方的nginx暴露的是80端口。

舉一個例子來看如何配置Service的port:

kind: Service 
apiVersion: v1 
metadata: 
 name: mallh5-service 
 namespace: abcdocker 
spec: 
 selector: 
 app: mallh5web 
 type: NodePort 
 ports: 
 - protocol: TCP 
 port: 3017 
 targetPort: 5003 
 nodePort: 31122 

這里舉出了一個service的yaml,其部署在abcdocker的namespace中。這里配置了nodePort,因此其類型Type就是NodePort,注意大小寫。若沒有配置nodePort,那這里需要填寫ClusterIP,即表示只支持集群內部服務訪問。

集群內部通信

單節點通信

集群單節點內的通信,主要包括兩種情況,同一個pod內的多容器間通信以及同一節點不同pod間的通信。由於不涉及跨節點訪問,因此流量不會經過物理網卡進行轉發。

通過查看路由表,也能窺見一二:

root@node-1:/opt/bin# route -n 
Kernel IP routing table 
Destination Gateway Genmask Flags Metric Ref Use Iface 
0.0.0.0 172.23.100.1 0.0.0.0 UG 0 0 0 eth0 
10.1.0.0 0.0.0.0 255.255.0.0 U 0 0 0 flannel.1 #flannel 網絡內跨節點的通信會交給 flannel.1 處理 
10.1.1.0 0.0.0.0 255.255.255.0 U 0 0 0 docker0 #flannel 網絡內節點內的通信會走 docker0 

1 Pod內通信

如下圖所示:

 

 

這種情況下,同一個pod內共享網絡命名空間,容器之間通過訪問127.0.0.1:(端口)即可。圖中的veth*即指veth對的一端(另一端未標注,但實際上是成對出現),該veth對是由Docker Daemon掛載在docker0網橋上,另一端添加到容器所屬的網絡命名空間,圖上顯示是容器中的eth0。

圖中演示了bridge模式下的容器間通信。docker1向docker2發送請求,docker1,docker2均與docker0建立了veth對進行通訊。

當請求經過docker0時,由於容器和docker0同屬於一個子網,因此請求經過docker2與docker0的veth*對,轉發到docker2,該過程並未跨節點,因此不經過eth0。

2 Pod間通信

同節點pod間通信

由於Pod內共享網絡命名空間(由pause容器創建),所以本質上也是同節點容器間的通信。同時,同一Node中Pod的默認路由都是docker0的地址,由於它們關聯在同一個docker0網橋上,地址網段相同,所有它們之間應當是能直接通信的。來看看實際上這一過程如何實現。如上圖,Pod1中容器1和容器2共享網絡命名空間,因此對pod外的請求通過pod1和Docker0網橋的veth對(圖中掛在eth0和ethx上)實現。

 

 

訪問另一個pod內的容器,其請求的地址是PodIP而非容器的ip,實際上也是同一個子網間通信,直接經過veth對轉發即可。

跨節點通信

CNI:容器網絡接口

CNI 是一種標准,它旨在為容器平台提供網絡的標准化。不同的容器平台(比如目前的 kubernetes、mesos 和 rkt)能夠通過相同的接口調用不同的網絡組件。

目前kubernetes支持的CNI組件種類很多,例如:bridge calico calico-ipam dhcp flannel host-local ipvlan loopback macvlan portmap ptp sample tuning vlan。在docker中,主流的跨主機通信方案主要有一下幾種:

1)基於隧道的overlay網絡:按隧道類型來說,不同的公司或者組織有不同的實現方案。docker原生的overlay網絡就是基於vxlan隧道實現的。ovn則需要通過geneve或者stt隧道來實現的。flannel最新版本也開始默認基於vxlan實現overlay網絡。

2)基於包封裝的overlay網絡:基於UDP封裝等數據包包裝方式,在docker集群上實現跨主機網絡。典型實現方案有weave、flannel的早期版本。

3)基於三層實現SDN網絡:基於三層協議和路由,直接在三層上實現跨主機網絡,並且通過iptables實現網絡的安全隔離。典型的方案為Project Calico。同時對不支持三層路由的環境,Project Calico還提供了基於IPIP封裝的跨主機網絡實現

通信方式

 

 

集群內跨節點通信涉及到不同的子網間通信,僅靠docker0無法實現,這里需要借助CNI網絡插件來實現。圖中展示了使用flannel實現跨節點通信的方式。

簡單說來,flannel的用戶態進程flanneld會為每個node節點創建一個flannel.1的網橋,根據etcd或apiserver的全局統一的集群信息為每個node分配全局唯一的網段,避免地址沖突。同時會為docker0和flannel.1創建veth對,docker0將報文丟給flannel.1,。

Flanneld維護了一份全局node的網絡表,通過flannel.1接收到請求后,根據node表,將請求二次封裝為UDP包,扔給eth0,由eth0出口進入物理網路發送給目的node。

在另一端以相反的流程。Flanneld解包並發往docker0,進而發往目的Pod中的容器。

外部訪問集群

從集群外訪問集群有多種方式,比如loadbalancer,Ingress,nodeport,nodeport和loadbalancer是service的兩個基本類型,是將service直接對外暴露的方式,ingress則是提供了七層負載均衡,其基本原理將外部流量轉發到內部的service,再轉發到后端endpoints,在平時的使用中,我們可以依據具體的業務需求選用不同的方式。這里主要介紹nodeport和ingress方式。

Nodeport

通過將Service的類型設置為NodePort,就可以在Cluster中的主機上通過一個指定端口暴露服務。注意通過Cluster中每台主機上的該指定端口都可以訪問到該服務,發送到該主機端口的請求會被kubernetes路由到提供服務的Pod上。采用這種服務類型,可以在kubernetes cluster網絡外通過主機IP:端口的方式訪問到服務。

 

 這里給出一個influxdb的例子,我們也可以針對這個模板去修改成其他的類型:

kind: Service 
apiVersion: v1 
metadata: 
 name: influxdb 
spec: 
 type: NodePort 
 ports: 
 - port: 8086 
 nodePort: 31112 
 selector: 
 name: influxdb 

Ingress

 

 

Ingress是推薦在生產環境使用的方式,它起到了七層負載均衡器和Http方向代理的作用,可以根據不同的url把入口流量分發到不同的后端Service。外部客戶端只看到foo.bar.com這個服務器,屏蔽了內部多個Service的實現方式。采用這種方式,簡化了客戶端的訪問,並增加了后端實現和部署的靈活性,可以在不影響客戶端的情況下對后端的服務部署進行調整。

其部署的yaml可以參考如下模板:

apiVersion: extensions/v1beta1 
kind: Ingress 
metadata: 
 name: test 
 annotations: 
 ingress.kubernetes.io/rewrite-target: / 
spec: 
 rules: 
 - host: test.name.com 
 http: 
 paths: 
 - path: /test 
 backend: 
 serviceName: service-1 
 servicePort: 8118 
 - path: /name 
 backend: 
 serviceName: service-2 
 servicePort: 8228

這里我們定義了一個ingress模板,定義通過test.name.com來訪問服務,在虛擬主機test.name.com下面定義了兩個Path,其中/test被分發到后端服務s1,/name被分發到后端服務s2。

集群中可以定義多個ingress,來完成不同服務的轉發,這里需要一個ingress controller來管理集群中的Ingress規則。Ingress Contronler 通過與 Kubernetes API 交互,動態的去感知集群中 Ingress 規則變化,然后讀取它,按照自定義的規則,規則就是寫明了哪個域名對應哪個service,生成一段 Nginx 配置,再寫到 Nginx-ingress-control的 Pod 里,這個 Ingress Contronler 的pod里面運行着一個nginx服務,控制器會把生成的nginx配置寫入/etc/nginx.conf文件中,然后 reload使用配置生效。

Kubernetes提供的Ingress Controller模板如下:

apiVersion: extensions/v1beta1 
kind: Ingress 
metadata: 
 name: test 
 annotations: 
 ingress.kubernetes.io/rewrite-target: / 
spec: 
 rules: 
 - host: foo.bar.com 
 http: 
 paths: 
 - path: /foo 
 backend: 
 serviceName: s1 
 servicePort: 80 
 - path: /bar 
 backend: 
 serviceName: s2 
 servicePort: 80 

總結及展望

本文針對kubernetes的網絡模型,從一個service,二個IP,三個port出發進行圖解。詳解kubernetes集群內及集群外部訪問方式


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM