【51CTO.com原創稿件】Kubernetes是Google開源的一個容器編排引擎,它支持自動化部署、大規模可伸縮、應用容器化管理。伴隨着雲原生技術的迅速崛起,如今Kubernetes 事實上已經成為應用容器化平台的標准,越來越受到企業的青睞,在生產中也應用的越來越廣泛。
我們的容器平台建設從2016年開始,大致經歷了探索預研、體系建設和平台落地這樣三個階段。

下面就從Kubernetes的網絡、存儲、集群管理和監控與運維幾個方面來分享下我們容器雲平台建設走過的歷程,希望給大家一些思考和啟發。
一、kubernetes網絡
容器網絡發展到現在,已經是雙雄會的格局。雙雄會其實指的就是Docker的CNM和Google、CoreOS、Kuberenetes主導的CNI。首先明確一點,CNM和CNI並不是網絡實現,他們是網絡規范和網絡體系,從研發的角度他們就是一堆接口,你底層是用Flannel也好、用Calico也好,他們並不關心,CNM和CNI關心的是網絡管理的問題。
網絡需求調研發現,業務部門主要關注以下幾點:1、容器網絡與物理網絡打通2、速度越快越好3、改動越少越好4、盡可能少的風險點。
容器的網絡方案大體可分為協議棧層級、穿越形態、隔離方式這三種形式。

協議層級:二層比較好理解,在以前傳統的機房或虛擬化場景中比較常見,就是基於橋接的 ARP+MAC 學習,它最大的缺陷是廣播。因為二層的廣播,會限制節點的量級;三層(純路由轉發),協議棧三層一般基於 BGP,自主學習整個機房的路由狀態。它最大的優點是它的 IP 穿透性,也就是說只要是基於這個 IP 的網絡,那此網絡就可以去穿越。顯而易見,它的規模是非常有優勢,且具有良好的量級擴展性。
但在實際部署過程中,因為企業的網絡大多受控。比如,有的企業網絡的 BGP 是基於安全考慮不給開發者用或者說企業網絡本身不是 BGP,那這種情況下你就受限了;協議棧二層加三層,它的優點是能夠解決純二層的規模性問題,又能解決純三層的各種限制問題,特別是在雲化 VPC 場景下可以利用 VPC 的跨節點三層轉發能力。所以,如今你看到的實際部署 Kubernetes 的網絡方案中,二層加三層也比較多。
穿越形態:
這個與實際部署環境十分相關。穿越形態分為兩種:Underlay、Overlay。
Underlay:在一個較好的一個可控的網絡場景下,我們一般利用 Underlay。可以這樣通俗的理解,無論下面是裸機還是虛擬機,只要整個網絡(物理+虛擬)可控,整個容器的網絡便可直接穿過去 ,這就是 Underlay。
Overlay:Overlay 在雲化場景比較常見。Overlay 下面是受控的 VPC 網絡,當出現不屬於 VPC 管轄范圍中的 IP 或者 MAC,VPC 將不允許此 IP/MAC 穿越。出現這種情況時,我們可利用 Overlay 方式來做。
Overlay網絡使物理網絡虛擬化、資源池化,是實現雲網融合的關鍵。把Overlay網絡和SDN技術結合使用,把SDN控制器作為Overlay網絡控制平面的控制器,這種方式更容易把使網絡與計算組件整合,是網絡向雲平台服務轉變的理想選擇。
隔離方式:
隔離方式通常分為VLAN和VXLAN 兩種:
VLAN:VLAN 機房中使用偏多,但實際上存在一個問題。就是它總的租戶數量受限。眾所周知,VLAN 具有數量限制。
VXLAN:VXLAN 是現今較為主流的一種隔離方式。因為它的規模性較好較大,且它基於 IP 穿越方式較好。
我們從協議棧層級、穿越形態和隔離方式對Kubernetes幾個常見的網絡組件(Calico、contiv、flannel、Openshift SDN、自定義路由)在傳統機房網絡以及雲化VPC網絡應用場景下做一個分析,用連線圖來表述它們之前的關系。

首先無論是傳統機房網絡還是雲化 VPC 網絡,我們可以看到 Overlay 方案是通用的,它在雲化場景里可能用的更多一些,因為它有很好的穿越性。
在上圖中,紅線實線指向傳統機房網絡,這里重點說明下。Underlay + 三層的方案,是傳統機房網絡非常流行的方案,同時它的性能非常可觀,場景應用偏多。Underlay+二層+三層的方案,在雲化 VPC 場景(特別是公有雲)也是比較主流的一個方案,借助 VPC 的自定義路由完成轉發。
綠色虛線指向雲化VPC網絡, Underlay+三層網絡在雲化 VPC 場景下,也是可以受限使用。受限使用顧名思義,可以使用但不是每個供應商都讓你用,因為每一個雲廠商對他自己網絡保護的定義不一樣。比如像 Calico 方案,它的 BGP 在 AWS 中就容易做,但在 Azure 中就不允許,因為 Azure 的 VPC 本身是不允許不受它管控范圍的 IP 通過。
黃色實線指向雲化VPC網絡,Overlay+二層或三層在雲化場景中比較常見。Overlay 下面是受控的 VPC 網絡,管控會比較方便。
當然雲化VPC場景下也存在一些問題,如下圖所示。

多租戶之間的網絡隔離問題

K8s從1.3版引入網絡策略機制,通過網絡策略可實現POD之間的入站和出站訪問策略。
網絡策略可應用於通過常用標簽標識的pod組,然后使用標簽來模擬傳統的分段網絡,可以通過特定的“段”標簽來標識前端和后端pod。策略控制這些段之間的流量,甚至控制來自外部源的流量。但並非所有的網絡后端都支持策略,比如 flannel。現在很多廠商在這方面加強了研究,也有很多新的解決方案,就不一一列舉了。
集群邊界Ingress的管理

Ingress 是在Kubernetes 1.2版本才出現的,容器應用默認以Service的形式提供服務,但Service僅作用於集群內部,通過Ingress將Service暴露出去才能為集群外的客戶端提供服務。
下面對常見的Ingress Controller做一個對比,見下表:

二、Kubernetes的存儲
K8s最初用於管理無狀態的服務,但隨着越來越多的應用遷移到K8s平台,管理存儲資源成為一個非常重要的功能。
Kubernetes中對於存儲的使用主要集中在以下幾個方面:
服務的基本配置文件讀取、密碼密鑰管理等;服務的存儲狀態、數據存取等;不同服務或應用程序間共享數據。大致有以下幾個場景:

Kubernete存儲在設計的時候遵循着Kubernetes的一貫哲學,即聲明式(Declarative)架構。同時為了盡可能多地兼容各種存儲平台,Kubernetes以in-tree plugin的形式來對接不同的存儲系統,滿足用戶可以根據自己業務的需要使用這些插件給容器提供存儲服務。同時兼容用戶使用FlexVolume和CSI定制化插件。相比較於Docker Volume,支持的存儲功能更加豐富和多樣。
Kubernete存儲插件解析:
1、in-tree plugin:存儲代碼與K8s緊密集成,耦合性太強
2、FlexVolume:存儲插件安裝在宿主機上,需要宿主機的root權限
3、CSI規范:將存儲代碼與K8s完全解耦(1.10版本及以上,使用CSI attacher使用0.2.0版本)

csi規范極大地方便了插件的開發、維護和集成,具有很好的發展前景。
Kubernetes使用兩種資源管理存儲:
PersistentVolume(簡稱PV):由管理員添加的一個存儲的描述,是一個全局資源,包含存儲的類型,存儲的大小和訪問模式等。它的生命周期獨立於Pod,例如當使用它的Pod銷毀時對PV沒有影響。
PersistentVolumeClaim(簡稱PVC):是Namespace里的資源,描述對PV的一個請求。請求信息包含存儲大小,訪問模式等。
PV可以看作可用的存儲資源,PVC則是對存儲資源的需求,PVC會根據Pod的要求去自動綁定合適的PV給Pod使用。PV和PVC的相互關系遵循下圖所示的生命周期。

PV模式有靜態和動態,靜態PV模式管理NFS、FC、ISCSI,動態PV模式管理glusterfs、Cinder、Ceph RBD、Vsphere、ScaleIO、AWS、Azure等。靜態的需要管理員創建和管理PV,而動態的則由系統自動生成PV並綁定PVC。
下面再簡單補充下Kubernetes中的鏡像管理,生產中都會有很多不同版本不同應用的鏡像,對鏡像的管理也是比較重要的環節。

鏡像的多租戶權限管理:
1、不同租戶的鏡像應相互隔離
2、不同的租戶對鏡像擁有不同的權限,例如讀寫、只讀、上傳、下載權限
3、鏡像庫提供鏡像的查詢、更新和刪除等功能
對於跨地域多數據中心的鏡像管理,鏡像庫的遠程復制管理需要注意:
1、在多數據中心或跨地域多站點的環境下,為了提高多地區鏡像的下載效率,至少需要兩級鏡像庫的設置:總鏡像庫和子鏡像庫
2、鏡像庫之間的准實時增量同步

三、Kubernetes集群管理
在生產系統中,Kubernetes多集群的管理主要涉及:
1、服務運維
2、集中配置
3、擴容升級
4、資源配額
首先說說多集群的調度管理
1、Kubernetes中的調度策略可以大致分為兩種,一種是全局的調度策略,另一種是運行時調度策略。
2、NODE的隔離與恢復;NODE的擴容;Pod動態擴容和縮放。
3、親和性可以實現就近部署,增強網絡能力實現通信上的就近路由,減少網絡的損耗。反親和性主要是出於高可靠性考慮,盡量分散實例。
4、 微服務依賴,定義啟動順序
5、跨部門應用不混部
6、api網關以及GPU節點應用獨占

多集群管理中的應用彈性伸縮管理:
1、手工擴縮容:預先知道業務量的變化情況
2、基於CPU使用率的自動擴縮容:v1.1版引入控制器HPA,POD必須設置CPU資源使用率請求
3、基於自定義業務指標的自動擴縮容:v1.7版對HPA重新設計,增加了組件,被稱為HPA v2
在實際應用中,HPA還有很多不完善的地方,很多廠商都用自己的監控體系來實現對業務指標的監控並實現自動擴容
Kubernetes多集群的調優:
主要有三個難點:
第一是如何分配資源,當用戶選擇多集群部署后,系統根據每個集群的資源用量,決定每個集群分配的容器數量,並且保證每個集群至少有一個容器。集群自動伸縮時,也會按照此比例創建和回收容器。
第二是故障遷移,集群控制器主要是為了解決多集群的自動伸縮和集群故障時的容器遷移,控制器定時檢測集群的多個節點,如果多次失敗后將觸發集群容器遷移的操作,保障服務可靠運行。
第三是網絡和存儲的互連,由於跨機房的網絡需要互連,我們采用vxlan的網絡方案實現,存儲也是通過專線互連。容器的鏡像倉庫采用Harbor,多集群之間設置同步策略,並且在每個集群都設置各自的域名解析,分別解析到不同的鏡像倉庫。

K8s集群的Master節點高可用實現,我們知道Kubernetes集群的核心是其master node,但目前默認情況下master node只有一個,一旦master node出現問題,Kubernetes集群將陷入“癱瘓”,對集群的管理、Pod的調度等均將無法實施。所以后面出現了一主多從的架構,包括master node、etcd等都可設計高可用的架構。

Federation 集群聯邦架構
在雲計算環境中,服務的作用距離范圍從近到遠一般可以有:同主機(Host,Node)、跨主機同可用區(Available Zone)、跨可用區同地區(Region)、跨地區同服務商(Cloud Service Provider)、跨雲平台。K8s的設計定位是單一集群在同一個地域內,因為同一個地區的網絡性能才能滿足K8s的調度和計算存儲連接要求。而集群聯邦(Federation)就是為提供跨Region跨服務商K8s集群服務而設計的,實現業務高可用。
Federation 在1.3版引入,集群聯邦federation/v1beta1 API擴展基於DNS服務發現的功能。利用DNS,讓POD可以跨集群、透明的解析服務。
1.6版支持級聯刪除聯邦資源,1.8版宣稱支持5000節點集群,集群聯邦V2

目前存在的問題:
1、網絡帶寬和成本的增加
2、削弱了多集群之間的隔離性
3、成熟度不足,在生產中還沒有正式的應用
四、kubernetes的監控與運維
對於一個監控系統而言,常見的監控維度包括:資源監控和應用監控。資源監控是指節點、應用的資源使用情況,在容器場景中就延伸為節點的資源利用率、集群的資源利用率、Pod的資源利用率等。應用監控指的是應用內部指標的監控,例如我們會將應用在線人數進行實時統計,並通過端口進行暴露來實現應用業務級別的監控與告警。那么在Kubernetes中,監控對象會細化為哪些實體呢?
系統組件
Kubernetes集群中內置的組件,包括apiserver、controller-manager、etcd等等。
靜態資源實體
主要指節點的資源狀態、內核事件等等
動態資源實體
主要指Kubernetes中抽象工作負載的實體,例如Deployment、DaemonSet、Pod等等。
自定義應用
主要指需要應用內部需要定制化的監控數據以及監控指標。
不同容器雲監控方案的對比:

Prometheus監控:
主要注意兩點:
- 查詢api的封裝
- 配置文件的下發
運維的思考---開發與運維的一體化

運維的思考---高可用問題
- Ocp平台:
1、負載均衡Router高可用集群: 2個節點
2、EFK高可用集群: 3個ES節點+n個F節點
3、鏡像倉庫高可用集群: 2個鏡像倉庫
- 微服務架構:
1、注冊中心高可用集群(Eureka): 3個
2、配置中心高可用集群: 3個
3、網關高可用集群: 2個
4、關鍵微服務均是高可用集群
運維的思考---高並發問題
- Ocp平台:
1、對后端微服務(Pod)配置彈性擴容, K8的彈性伸縮擴容以及Docker容器的秒級啟動可以支撐用戶量的持續增長;
2、提前預留20%的資源, 當高並發情況發生時, 可以緊急擴充資源。
- 微服務架構:
1、調大關鍵鏈路微服務的熔斷線程數: 提升主要業務的並發響應能力。
2、對非關鍵鏈路微服務通過熔斷限流進行降級處理甚至關閉非關鍵鏈路的微服務。
3、熔斷機制:提升容器雲高並發場景下的容錯能力,防止故障級聯以及微服務的雪崩效應,提升系統的可用性。
- 中間件:
1、除了正在使用的集群外, 提前增加冷備的集群。
2、當高並發場景即將發生時, 可以緊急水平擴展。
最后,容器雲之路總結
1、業務層面:因大型企業對業務的穩定性和連續性有比較高的要求,故容器化的演進路徑必然是從邊緣業務到核心業務,從簡單應用到復雜應用,具體到業務,首先可以考慮在Web前端進行容器化遷移,最后動后端業務。
2、技術層面:目前原生Docker在服務發現、負載均衡、容器生命周期管理、容器間網絡、存儲等方面還存在諸多的不足,許多第三方廠家提供的開源解決方案和商業化版本,各具特色,難分高下。用戶無論選擇何種產品,可靠性、靈活性是需要慎重考慮的2個重要因素。
3、兼顧成本效益:綜合考慮容器化付出的成本代價與未來收益之間的平衡。
4、考慮現有硬件的負載能力,容器化並非包治百病的良葯,某些對並發吞吐量要求更高的業務,直接運行在裸機上,通過系統調優提高性能,容器化未必是最好的選擇。
5、持續更新,時刻提醒自己持續學習,擁抱變化,這樣才能看到平台的不足,不斷迭代出更好的產品。
在生產實踐中,只有夯實基礎不斷去完善基於容器雲平台的產品和建設生態體系,才能掌控未來決勝千里!
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】