1.docker的三種編排工具
Docker的第一類編排工具:
a.docker compose(docker原生):只能對一個主機上的容器進行編排,無法編排多個主機上的容器;
b.docker swarm(docker原生):可以對多個主機上的容器進行編排;
c.docker machine(docker原生):可以將一個主機迅速初始化到docker swarm集群里.
以上三個稱為docker三劍客
Docker的第二類編排工具:
mesos:它不是docker的編排工具,而是資源分配工具,所以mesos必須要依賴於容器編排框架marathon.
Docker的第三類編排工具:
kubernetes(簡稱k8s):這個容器編排工具占據了80%以上的市場份額.
有了容器和容器編排技術,對持續集成(CI)、持續交付Delivery(CD)和持續部署Deployment(CD)的需求有了很大幫助,這也就是DevOps的理念,DevOps並不是一種技術,而是一種運動、一種文化、一種思想.
2.k8s介紹
k8s的代碼托管在github之上:https://github.com/kubernetes/kubernetes/releases
特性:
a.可以自動裝箱,即:可以自動完成容器的部署,而不影響可用性; b.可以自我修復,如果容器崩潰了,可以1s內重新啟動,有了k8s后,我們不再關注個體,而是關注群體; c.可以自動實現水平擴展,一個容器不夠,再啟動一個; d.可以自動實現服務發現和負載均衡,可以自動發現每個微服務之間的關系,也可以自動對容器內多個服務做負載均衡; e.可以實現自動發布和回滾; f.可以實現密鑰和配置管理,也就是說每個容器不是加載容器內的配置文件,而是加載遠程服務器上(配置中心)的配置文件; g.可以實現存儲編排; h.可以實現任務的批量處理執行.
k8s是一個有中心節點架構的集群,由master節點(至少三個)和nodes節點(運行容器的節點)組成,客戶的啟動容器等請求會先發給master節點,master節點有個調度器會分析node節點資源(cpu、內存)的可用狀態,找到最佳適配的node來啟動用戶請求的容器.
master上的第一個組件叫調度器(Scheduler),它的工作原理有兩步:第一步調度器先做預選,即先評估有多少個node符合容器需求;第二步調度器再做優選,即在符合的node中選擇一個最佳的node來運行容器.如果node宕機了,那么托管在node之上的所有容器也就不見了,此時k8s可以在其他節點上創建出來和宕機node上一模一樣的容器.
另外,master上還有一個組件叫控制器,它會不停的Loop,用來周期性監控每個node的健康狀態;控制器是有多個的(因為有至少三個master),master上還有一個組件叫控制器管理器(Controller-Mnager),控制器管理器用來監控每個控制器的健康.
在k8s上運行的最小單元不是容器,而是pod.pod可以理解為容器外殼,pod里面裝的就是容器.一個pod里面可以放多個容器,這些容器可以共享一個底層的網絡名稱空間、存儲卷,這樣一來,pod對外更像一個虛擬機.
一般說來,一個pod里只放一個容器;如果一個pod必須要放多個容器,那么里面有一個是主容器,其他都是輔助容器,輔助容器主要是為了輔助主容器的主程序的某些功能而設置的.
一個pod里面的所有容器只能運行在一個node上,最終用戶無需再關注pod運行在哪個node之上,這也就是雲的概念,也就是把很多的node做為一個資源池,來進行統一管理.pod盡量由控制器管理,而不要手工管理.
3.pod可以分為兩類
a.自主式pod:即自我管理的pod.創建Pod,首先交給Apiserver,然后調度器調度給指定的node節點.如果容器需要啟動,由node上kubelet組件來完成;如果node發生故障,那么pod也就消失了.
b.控制器管理的Pod(建議創建這種Pod):這種Pod是有生命周期的對象.由master上的調度器將pod調度至某node進行運行或者停止,Replica Set(副本集控制器),但是該控制器並不直接使用,而是使用一個聲明更新的控制器Deployment,這個也是用的最多的,Deployment控制器只能管理那些無狀態的應用;有狀態的應用是由Stateful Set控制器管理.
對於Deployment控制器,它還支持二級控制器,叫HPA(horizontalPodAutoscaler),該控制器可以自動水平擴展pod,也就是當一個pod壓力大時,HPA控制器會自動水平擴展加幾個新的pod來分解壓力,具體加幾個,HPA會根據當前節點的cpu、內存負荷來計算,一旦訪問量小了,HPA還會自動減少pod個數;
如果我們想在一個Node上只運行一個副本,需要用DaemonSet控制器;
如果需要運行作業(如備份、清理數據等),需要conjob控制器.以上所講的都是pod的控制器,用來管理不同類型的pod.
4.service
標簽選擇器(Lablel Selector)組件:是一個根據標簽來過濾符合要求的資源機制,給pod打上標簽(Lablel),可以實現分組效果.
客戶端是通過service來找到pod的,service是通過pod的標簽選擇器來找到pod的.
service只是一個iptables方式的net地址轉換路由規則,到了1.11版本,支持了ipvs方式的分發規則,支持各種調度算法,這也就實現了負載均衡,裝完k8s,需要創建一個DNS pod,這是因為service的名字需要DNS服務器來解析,這種pod是k8s的組成部分,被稱為k8s基礎架構的pod,也被稱為k8s的附件,英文名叫AddOns.這種DNS是用來解析service名字的,而不是pod的,DNS名稱解析是K8s自動維護的,不需要人工干預.
一句話:service里面的地址存在於iptables net或者ipvs中,service是用來調度流量的,而不會啟動或者停止容器.
pod的啟動或者關閉、創建等是由控制器來做的,比如創建一個nginx pod,就得先創建一個nginx控制器,nginx控制器就會自動幫我們創建nginx pod;然后再創建一個nginx service,把nginx pod發布出去.
service有兩種類型:一種是調度流量僅供k8s內部使用;另外一種則調度流量供k8s外部使用.
service是用來分發流量給pod,控制器是用來創建、啟動和停止pod,標簽選擇器是讓service根據標簽來識別每個pod的.
5.網絡
在k8s中,需要三種網絡
a.各pod在一個網絡中; b.service在另外一個網絡,即service的地址和pod的地址是不同網段的, pod的地址是配置在pod內部的網絡名稱空間,是可以ping通的, 但service的地址是虛擬的,是假地址,只存在於iptables或者ipvs中. c.node又存在於另外一個網絡. 所以外部先到達node網絡,然后再到service網絡,最后才到pod網絡.
pod之間怎么通信呢?同一個pod內的多個容器通過lo進行通信;
各pod之間通過overlay network(疊加網絡)進行通信,即使pod之間跨主機,通信也沒問題;
pod與service之間通過網關(也就是docker 零橋的地址)進行通信.
node上有個組件叫kube-proxy,它負責和ApiServer進行通信,kube-proxy一旦發現service背后的pod地址發生變化,就會改變service在ipvs中的pod地址,所以service的管理是靠kube-proxy來實現的.
kubelet--node上用於和master通信的一個組件,試圖啟動node上的容器,啟動容器是由容器引擎來操作的,最流行的容器引擎是docker.
6.通信簡介
在master(master是有多個的)上的數據並不存在master本地,而是存在共享存儲DB中,這個共享DB叫etcd.etcd的數據以key-value形式存儲,集群中所有狀態信息都在etcd中,所以ectd要做冗余,一般至少三個節點,etcd通過https方式訪問,etcd有一個端口用於集群內部通信(也就是和其它etcd通信),還有一個端口用於對ApiServer通信,所以etcd內部通訊需要點對點的專門證書,對ApiServer通信需要另外一套證書;ApiServer向客戶端提供服務,需要一套證書;ApiServer和node上的kubelet組件和kube-proxy組件通信也需要CA證書,所以做K8s的部署,需要建立5個CA,這個比較考驗功底.
把k8s歸為以下三類節點:master、node(部署pod)和ectd(存儲集群狀態信息),彼此通過http或https進行通信,網絡分為:pod網絡、service網絡和node網絡.所以需要構建出三類網絡,但是K8s自己不提供這三類網絡,依賴於第三方插件CNI.
k8s通過CNI(容器網絡接口)插件體系接入網絡.目前常見的CNI插件是flannel,其實網絡用於提供兩個功能:一個是給pod、service等提供ip地址;另外就是提供網絡測試的功能,來隔離不同Pod之間的通信.
flannel插件只支持網絡配置(供ip地址的功能),不支持網絡策略,CNI插件中的calico可以同時支持網絡配置和網絡策略,但是calico的部署和使用門檻比較高,於是,又有了第三個CNI插件canel,它用flannel提供網絡配置,用calico提供網絡策略.這些插件可以作為k8s之上的守護進程運行,也可以在k8s里面的容器運行.
名稱空間--可以將不同種類的pod運行在不同的名稱空間中.比如可以把名稱空間分為開發名稱空間、測試名稱空間等,可以通過網絡策略來定義名稱空間之間、同一個名稱空間的pod之間的網絡行為.
參考博客:http://blog.itpub.net/28916011/viewspace-2213456/