k8s的list-watch機制和 pod調度約束

本文轉載自查看原文 2021-11-09 08:21 143 k8s

k8s 的調度約束

一： k8s的list-watch 機制
二：親和性

一： k8s的list-watch 機制

1.1 k8s通過list-watch 機制進行每個組件的寫作

Kubernetes 是通過 List-Watch 的機制進行每個組件的協作，保持數據同步的，每個組件之間的設計實現了解耦。

用戶是通過 kubectl 根據配置文件，向 APIServer 發送命令，在 Node 節點上面建立 Pod 和 Container。
APIServer 經過 API 調用，權限控制，調用資源和存儲資源的過程，實際上還沒有真正開始部署應用。這里需要 Controller Manager、Scheduler 和 kubelet 的協助才能完成整個部署過程。

在 Kubernetes 中，所有部署的信息都會寫到 etcd 中保存。實際上 etcd 在存儲部署信息的時候，會發送 Create 事件給 APIServer，而 APIServer 會通過監聽（Watch）etcd 發過來的事件。其他組件也會監聽（Watch）APIServer 發出來的事件。

1.2 Pod 的典型啟動過程

Pod 是 Kubernetes 的基礎單元，Pod 啟動典型創建過程如下：
（1）這里有三個 List-Watch，分別是 Controller Manager（運行在 Master），Scheduler（運行在 Master），kubelet（運行在 Node）。他們在進程已啟動就會監聽（Watch）APIServer 發出來的事件。

（2）用戶通過 kubectl 或其他 API 客戶端提交請求給 APIServer 來建立一個 Pod 對象副本。

（3）APIServer 嘗試着將 Pod 對象的相關元信息存入 etcd 中，待寫入操作執行完成，APIServer 即會返回確認信息至客戶端。

（4）當 etcd 接受創建 Pod 信息以后，會發送一個 Create 事件給 APIServer。

（5）由於 Controller Manager 一直在監聽（Watch，通過http的8080端口）APIServer 中的事件。此時 APIServer 接受到了 Create 事件，又會發送給 Controller Manager。

（6）Controller Manager 在接到 Create 事件以后，調用其中的 Replication Controller 來保證 Node 上面需要創建的副本數量。一旦副本數量少於 RC 中定義的數量，RC 會自動創建副本。總之它是保證副本數量的 Controller（PS：擴容縮容的擔當）。

（7）在 Controller Manager 創建 Pod 副本以后，APIServer 會在 etcd 中記錄這個 Pod 的詳細信息。例如 Pod 的副本數，Container 的內容是什么。

（8）同樣的 etcd 會將創建 Pod 的信息通過事件發送給 APIServer。

（9）由於 Scheduler 在監聽（Watch）APIServer，並且它在系統中起到了“承上啟下”的作用，“承上”是指它負責接收創建的 Pod 事件，為其安排 Node；“啟下”是指安置工作完成后，Node 上的 kubelet 進程會接管后繼工作，負責 Pod 生命周期中的“下半生”。換句話說，Scheduler 的作用是將待調度的 Pod 按照調度算法和策略綁定到集群中 Node 上。

（10）Scheduler 調度完畢以后會更新 Pod 的信息，此時的信息更加豐富了。除了知道 Pod 的副本數量，副本內容。還知道部署到哪個 Node 上面了。並將上面的 Pod 信息更新至 API Server，由 APIServer 更新至 etcd 中，保存起來。

（11）etcd 將更新成功的事件發送給 APIServer，APIServer 也開始反映此 Pod 對象的調度結果。

（12）kubelet 是在 Node 上面運行的進程，它也通過 List-Watch 的方式監聽（Watch，通過https的6443端口）APIServer 發送的 Pod 更新的事件。kubelet 會嘗試在當前節點上調用 Docker 啟動容器，並將 Pod 以及容器的結果狀態回送至 APIServer。

（13）APIServer 將 Pod 狀態信息存入 etcd 中。在 etcd 確認寫入操作成功完成后，APIServer將確認信息發送至相關的 kubelet，事件將通過它被接受。

注意：在創建 Pod 的工作就已經完成了后，為什么 kubelet 還要一直監聽呢？原因很簡單，假設這個時候 kubectl 發命令，要擴充 Pod 副本數量，那么上面的流程又會觸發一遍，kubelet 會根據最新的 Pod 的部署情況調整 Node 的資源。又或者 Pod 副本數量沒有發生變化，但是其中的鏡像文件升級了，kubelet 也會自動獲取最新的鏡像文件並且加載。

1.3 調度過程

Scheduler 是 kubernetes 的調度器，主要的任務是把定義的 pod 分配到集群的節點上。其主要考慮的問題如下：

公平：如何保證每個節點都能被分配資源
資源高效利用：集群所有資源最大化被使用
效率：調度的性能要好，能夠盡快地對大批量的 pod 完成調度工作
靈活：允許用戶根據自己的需求控制調度的邏輯

調度分為幾個部分：

首先是過濾掉不滿足條件的節點，這個過程稱為預算策略（predicate）
然后對通過的節點按照優先級排序，這個是優選策略（priorities）；
最后從中選擇優先級最高的節點。如果中間任何一步驟有錯誤，就直接返回錯誤。

1.3.1 預算策略（predicate)

Predicate 有一系列的常見的算法可以使用：

PodFitsResources：節點上剩余的資源是否大於 pod 請求的資源。
PodFitsHost：如果 pod 指定了 NodeName，檢查節點名稱是否和 NodeName 匹配。
PodFitsHostPorts：節點上已經使用的 port 是否和 pod 申請的 port 沖突。
PodSelectorMatches：過濾掉和 pod 指定的 label 不匹配的節點。
NoDiskConflict：已經 mount 的 volume 和 pod 指定的 volume 不沖突，除非它們都是只讀。

1.3.2 優選策略（priorities)

如果在 predicate 過程中沒有合適的節點，pod 會一直在 pending 狀態，不斷重試調度，直到有節點滿足條件。經過這個步驟，如果有多個節點滿足條件，就繼續 priorities 過程：按照優先級大小對節點排序。

優先級由一系列鍵值對組成，鍵是該優先級項的名稱，值是它的權重（該項的重要性）。有一系列的常見的優先級選項包括：

LeastRequestedPriority：通過計算CPU和Memory的使用率來決定權重，使用率越低權重越高。也就是說，這個優先級指標傾向於資源使用比例更低的節點。
BalancedResourceAllocation：節點上 CPU 和 Memory 使用率越接近，權重越高。這個一般和上面的一起使用，不單獨使用。比如 node01 的 CPU 和 Memory 使用率 20:60，node02 的 CPU 和 Memory 使用率 50:50，雖然 node01 的總使用率比 node02 低，但 node02 的 CPU 和 Memory 使用率更接近，從而調度時會優選 node02。
ImageLocalityPriority：傾向於已經有要使用鏡像的節點，鏡像總大小值越大，權重越高。

1.4 指定調度節點

1.4.1 使用nodeName 強制匹配

pod.spec.nodeName 將 Pod 直接調度到指定的 Node 節點上，會跳過 Scheduler 的調度策略，該匹配規則是強制匹配

[root@master demo]# vim myapp.yaml
apiVersion: extensions/v1beta1  
kind: Deployment  
metadata:
  name: myapp
spec:
  replicas: 3
  template:
    metadata:
      labels:
        app: myapp
    #調度到nodeName為 node01 的節點    
    spec:
      nodeName: node01
      containers:
      - name: myapp
        image: soscscs/myapp:v1
        ports:
        - containerPort: 80

[root@master demo]# kubectl apply -f myapp.yaml 
deployment.extensions/myapp created
[root@master demo]# kubectl get pods -owide
NAME                     READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
myapp-786c9896f9-nvqpc   1/1     Running   0          9s    10.244.1.82   node01   <none>           <none>
myapp-786c9896f9-qnmbz   1/1     Running   0          9s    10.244.1.81   node01   <none>           <none>
myapp-786c9896f9-xl4tv   1/1     Running   0          9s    10.244.1.83   node01   <none>           <none>

#查看詳細事件（發現未經過 scheduler 調度分配）
[root@master demo]# kubectl describe pod myapp-786c9896f9-nvqpc

1.4.2 使用nodeSelector強制約束

pod.spec.nodeSelector：通過 kubernetes 的 label-selector 機制選擇節點，由調度器調度策略匹配 label，然后調度 Pod 到目標節點，該匹配規則屬於強制約束

獲取標簽幫助
kubectl label --help
Usage:
kubectl label [--overwrite] (-f FILENAME | TYPE NAME) KEY_1=VAL_1 ... KEY_N=VAL_N [--resource-version=version] [options]

#獲取node的NAME名稱
root@master demo]# kubectl  get node
NAME     STATUS   ROLES    AGE     VERSION
master   Ready    master   6d22h   v1.15.1
node01   Ready    <none>   6d22h   v1.15.1
node02   Ready    <none>   6d22h   v1.15.1


#給對應的 node 設置標簽分別為 apps=a; apps=b
[root@master demo]# kubectl  label  nodes node01 apps=a
node/node01 labeled
[root@master demo]# kubectl  label  nodes node02 apps=b
node/node02 labeled


#查看節點的標簽
[root@master demo]# kubectl get nodes --show-labels

[root@master demo]# vim myapp.yaml
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: myapp1
spec:
  replicas: 3
  template:
    metadata:
      labels:
        app: myapp
    spec:
      #調度到標簽為 aaps=a的節點上
      nodeSelector:
        apps: a
      containers:
      - name: myapp1
        image: soscscs/myapp:v1
        ports:
        - containerPort: 80

[root@master demo]# kubectl describe  pod myapp1-74ff9cd55c-6lw7v 
[root@master demo]# kubectl apply -f myapp.yaml 
deployment.extensions/myapp1 created

#查看詳細信息，通過事件可以發現要先經過scheduler調度
[root@master demo]# kubectl get pods -o wide
NAME                      READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
myapp1-74ff9cd55c-6lw7v   1/1     Running   0          16s   10.244.1.86   node01   <none>           <none>
myapp1-74ff9cd55c-n6r6h   1/1     Running   0          16s   10.244.1.84   node01   <none>           <none>
myapp1-74ff9cd55c-zvv2l   1/1     Running   0          16s   10.244.1.85   node01   <none>           <none>

1.5 修改，刪除，查詢label

#修改node02 的標簽， 將標簽修改為apps=c
[root@master demo]# kubectl  label nodes node02 apps=c --overwrite 
node/node02 labeled

#查看節點的標簽為 apps 的節點
[root@master demo]# kubectl  get nodes -l apps
NAME     STATUS   ROLES    AGE     VERSION
node01   Ready    <none>   6d22h   v1.15.1
node02   Ready    <none>   6d22h   v1.15.1

#查看節點標簽為 apps=c的節點
[root@master demo]# kubectl  get nodes -l apps=c
NAME     STATUS   ROLES    AGE     VERSION
node02   Ready    <none>   6d22h   v1.15.1

#刪除節點node02 的標簽 apps
[root@master demo]# kubectl label nodes node02 apps-
node/node02 labeled
[root@master demo]# kubectl  get nodes -l apps
NAME     STATUS   ROLES    AGE     VERSION
node01   Ready    <none>   6d22h   v1.15.1

#刪除節點node01 的標簽apps
[root@master demo]# kubectl label nodes node01 apps-
node/node01 labeled
[root@master demo]# kubectl  get nodes -l apps
No resources found.

二：親和性

2.1 節點親和性和Pod親和性

2.1.1 節點親和性

pod.spec.nodeAffinity
  preferredDuringSchedulingIgnoredDuringExecution：軟策略
  requiredDuringSchedulingIgnoredDuringExecution：硬策略

2.1.2 Pod親和性

pod.spec.affinity.podAffinity/podAntiAffinity
  preferredDuringSchedulingIgnoredDuringExecution：軟策略
  requiredDuringSchedulingIgnoredDuringExecution：硬策略

2.2 鍵值運算關系

鍵值	釋義
In	label的值在某個列表中
NotIn	label的值不在某個列表中
Gt	label的值大於某個值
Lt	label的值小於某個值
Exists	某個label存在
DoesNotExist	某個label不存在

2.3 示例

#查看節點的標簽
[root@master demo]# kubectl  get nodes --show-labels 
NAME     STATUS   ROLES    AGE     VERSION   LABELS
master   Ready    master   6d22h   v1.15.1   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=master,kubernetes.io/os=linux,node-role.kubernetes.io/master=
node01   Ready    <none>   6d22h   v1.15.1   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node01,kubernetes.io/os=linux
node02   Ready    <none>   6d22h   v1.15.1   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node02,kubernetes.io/os=linux

2.3.1 硬策略

[root@master demo]# vim pod1.yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          #指定node的標簽
          - key: kubernetes.io/hostname
          #設置Pod安裝到kubernetes.io/hostname 的標簽值不在valus列表中的node上
            operator: NotIn
            values:
            - node02

[root@master demo]# kubectl  apply  -f pod1.yaml 
pod/affinity created
[root@master demo]# kubectl get pods -o wide
NAME       READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
affinity   1/1     Running   0          9s    10.244.1.94   node01   <none>           <none>

[root@master demo]# vim pod1.yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname
         #設置Pod安裝到kubernetes.io/hostname的標簽值在values列表中的node上
            operator: In
            values:
            #當前調度node沒有node03
            - node03

#硬策略不滿足條件，Pod 狀態一直會處於 Pending 狀態。
kubectl delete pod --all && kubectl apply -f pod1.yaml && kubectl get pods -o wide

2.3.2 軟策略

[root@master demo]# vim pod2.yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
       #如果有多個軟策略選項的話，權重越大，優先級越高
      - weight: 1
        preference:
          matchExpressions:
          - key: kubernetes.io/hostname
            operator: In
            values:
            - node03

[root@master demo]# kubectl  get pods -o wide

[root@master demo]# vim pod2.yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
        preference:
          matchExpressions:
          - key: kubernetes.io/hostname
            operator: In
            values:
            - node02

[root@master demo]# kubectl delete pod --all && kubectl apply -f pod2.yaml && kubectl get pods -o wide

2.3.3 軟策略和硬策略一起使用

如果把硬策略和軟策略合在一起使用，則要先滿足硬策略之后才會滿足軟策略

apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:   #先滿足硬策略，排除有kubernetes.io/hostname=node02標簽的節點
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname
            operator: NotIn
            values:
            - node02
      preferredDuringSchedulingIgnoredDuringExecution:  #再滿足軟策略，優先選擇有kgc=a標簽的節點
      - weight: 1
        preference:
          matchExpressions:
          - key: apps
            operator: In
            values:
            - a

2.4 親和性和反親和

調度策略	匹配標簽	操作符	拓撲域支持	調度目標
nodeAffinity	主機	In, NotIn, Exists,DoesNotExist, Gt, Lt	否	指定主機
podAffinit	Pod	In, NotIn, Exists,DoesNotExist	是	Pod與指定Pod同一拓撲域
podAntiAffinity	Pod	In, NotIn, Exists,DoesNotExist	是	Pod與指定Pod不在同一拓撲域

[root@master demo]# vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp01
  labels:
    app: myapp01
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1

[root@master demo]# kubectl  apply  -f pod3.yaml 
pod/myapp01 created

[root@master demo]# kubectl  get pods --show-labels 
NAME       READY   STATUS    RESTARTS   AGE    LABELSd
myapp01    1/1     Running   0          22s    app=myapp01

[root@master demo]# kubectl  get nodes  --show-labels

2.4.1 pod 親和性

[root@master demo]# vim pod4.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp02
  labels:
    app: myapp02
spec:
  containers:
  - name: myapp02
    image: soscscs/myapp:v1
  affinity:
    #pod親和策略
    podAffinity:
      #硬策略
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values:
            - myapp01
         #拓撲域
        topologyKey: kubernetes.io/hostname
當存在pod 擁有鍵app，值為myapp01時,(暫時稱這個pod為X），其所在節點的 kubernetes.io/hostname 值，就成為了新pod調度的依據。（kubernetes.io/hostname 是由字段topologyKey 定義的 ）
新pod調度的節點，其kubernetes.io/hostname值必須和 pod X 所在節點的kubernetes.io/hostname值一致

僅當節點和至少一個已運行且有鍵為“app”且值為“myapp01”的標簽的 Pod 處於同一拓撲域時，才可以將該 Pod 調度到節點上。（更確切的說，如果節點 N 具有帶有鍵 kubernetes.io/hostname 和某個值 V 的標簽，則 Pod 有資格在節點 N 上運行，以便集群中至少有一個節點具有鍵 kubernetes.io/hostname 和值為 V 的節點正在運行具有鍵“app”和值 “myapp01”的標簽的 pod。）

topologyKey 是節點標簽的鍵。如果兩個節點使用此鍵標記並且具有相同的標簽值，則調度器會將這兩個節點視為處於同一拓撲域中。調度器試圖在每個拓撲域中放置數量均衡的 Pod。

如果 kubernetes.io/hostname 對應的值不一樣就是不同的拓撲域。比如 Pod1 在 kubernetes.io/hostname=node01 的 Node 上，Pod2 在 kubernetes.io/hostname=node02 的 Node 上，Pod3 在 kubernetes.io/hostname=node01 的 Node 上，則 Pod2 和 Pod1、Pod3 不在同一個拓撲域，而Pod1 和 Pod3在同一個拓撲域。

[root@master demo]# kubectl  apply  -f pod4.yaml 

[root@master demo]# kubectl get  pods --show-labels -o  wide
NAME       READY   STATUS    RESTARTS   AGE    IP             NODE     NOMINATED NODE   READINESS GATES   LABELS
affinity   1/1     Running   0          122m   10.244.1.100   node01   <none>           <none>            app=node-affinity-pod
myapp01    1/1     Running   0          114m   10.244.2.74    node02   <none>           <none>            app=myapp01
myapp02    1/1     Running   0          46m    10.244.2.75    node02   <none>           <none>            app=myapp02

2.4.2 pod 反親和性調度

[root@master demo]# vim pod5.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp03
  labels:
    app: myapp03
spec:
  containers:
  - name: myapp03
    image: soscscs/myapp:v1
  affinity:
    #Pod反親和
    podAntiAffinity:
      #軟策略
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 100
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: app
              operator: In
              values:
              - myapp01
          topologyKey: kubernetes.io/hostname

如果節點處於 Pod 所在的同一拓撲域且具有鍵“app”和值“myapp01”的標簽，則該 pod 不應將其調度到該節點上。（如果 topologyKey 為 kubernetes.io/hostname，則意味着當節點和具有鍵 “app”和值“myapp01”的 Pod 處於相同的區域，Pod 不能被調度到該節點上。）

即：當某個pod擁有鍵 app，值為myapp01 的標簽時（稱此pod為X），就不將新pod 調度到和pod X處於同一個拓撲域的節點（即擁有相同的 topologyKey: kubernetes.io/hostname值）

[root@master demo]# kubectl  apply  -f pod5.yaml 
pod/myapp03 created
[root@master demo]# kubectl  get pods --show-labels -o wide
NAME       READY   STATUS    RESTARTS   AGE    IP             NODE     NOMINATED NODE   READINESS GATES   LABELS
affinity   1/1     Running   0          136m   10.244.1.100   node01   <none>           <none>            app=node-affinity-pod
myapp01    1/1     Running   0          128m   10.244.2.74    node02   <none>           <none>            app=myapp01
myapp02    1/1     Running   0          60m    10.244.2.75    node02   <none>           <none>            app=myapp02
myapp03    1/1     Running   0          20s    10.244.1.101   node01   <none>           <none>            app=myapp03

node01 節點的topologyKey值為 kubernetes.io/hostname=node01

node02 節點的 topologyKey值為 kubernetes.io/hostname=node02

因此，node01 和node02是兩個拓撲域

而擁有標簽 app=myapp01 ，的pod myapp01在node02 節點上。，所以，所有topologyKey值為 kubernetes.io/hostname=node02的節點，都不會被該新pod 選擇。

因此，該pod被調度到了 node01上

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 K8S list&watch機制 k8s之pod調度（K8s學習筆記六）Pod的調度 Kubernetes List-Watch 機制原理與實現 - chunked 設置k8s節點不可被pod調度SchedulingDisabled [k8s]zookeeper集群在k8s的搭建(statefulset模式)-pod的調度 k8s調度器優先級和搶占機制 k8s pod 詳述 k8s pod 詳述 K8S之Pod詳解