從0到1使用Kubernetes系列（五）：Kubernetes Scheduling

本文轉載自查看原文 2021-11-01 10:12 275 技術分享/ 雲原生/ DevOps/ 容器/ 開發/ 雲計算

前述文章介紹了Kubernetes基本介紹，搭建Kubernetes集群所需要的工具，如何安裝，如何搭建應用。本篇介紹怎么使用Kubernetes進行資源調度。

Kubernetes作為一個容器編排調度引擎，資源調度是它的最基本也是最重要的功能。當開發者部署一個應用時它運行在哪個節點？這個節點滿不滿足開發的運行要求？Kubernetes又是如何進行資源調度的呢？

▌通過本文可了解到以下信息：

資源請求及限制對pod調度的影響
查看調度事件events
了解label選擇器對pod調度的影響
了解節點親和性和Pod親和性對調度的影響
不使用調度器，手動調度一個pod
了解Daemonset的角色
了解如何配置Kubernetes scheduler

在Kubernetes中有一個kube-scheduler組件，該組件運行在master節點上，它主要負責pod的調度。Kube-scheduler監聽kube-apiserver中是否有還未調度到node上的pod（即Spec.NodeName為空的Pod），再通過特定的算法為pod指定分派node運行。如果分配失敗，則將該pod放置調度隊列尾部以重新調度。調度主要分為幾個部分：首先是預選過程，過濾不滿足Pod要求的節點。然后是優選過程，對通過要求的節點進行優先級排序，最后選擇優先級最高的節點分配，其中涉及到的兩個關鍵點是過濾和優先級評定的算法。調度器使用一組規則過濾不符合要求的節點，其中包括設置了資源的request和指定了Nodename或者其他親和性設置等等。優先級評定將過濾得到的節點列表進行打分，調度器考慮一些整體的優化策略，比如將Deployment控制的多個副本集分配到不同節點上等。

資源請求及限制對pod調度的影響

在部署應用時，開發者會考慮到使這個應用運行起來需要多少的內存和CPU資源的使用量，這樣才能判斷應將他運行在哪個節點上。在部署文件resource屬性中添加requests字段用於說明運行該容器所需的最少資源，當調度器開始調度該Pod時，調度程序確保對於每種資源類型，計划容器的資源請求總和必須小於節點的容量才能分配該節點運行Pod，resource屬性中添加limits字段用於限制容器運行時所獲得的最大資源。如果該容器超出其內存限制，則可能被終止。如果該容器可以重新啟動，kubelet會將它重新啟動。如果調度器找不到合適的節點運行Pod時，就會產生調度失敗事件，調度器會將Pod放置調度隊列以循環調度，直到調度完成。

在下面例子中，運行一個nginx Pod，資源請求了256Mi的內存和100m的CPU，調度器將判斷哪個節點還剩余這么多的資源，尋找到了之后就會將這個Pod調度上去。同時也設置了512Mi的內存和300m的CPU的使用限制，如果該Pod運行之后超出了這一限制就將被重啟甚至被驅逐。

apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  containers:
  - name: nginx
    image: nginx
    resources:
      requests:
        memory: "256Mi"
        cpu: "100m"
      limits:
        memory: "512Mi"
        cpu: "300m"

參考文檔：

Assign CPU Resources to Containers and Pods
Assign Memory Resources to Containers and Pods

查看調度事件events

在部署應用后，可以使用 kubectl describe 命令進行查看Pod的調度事件，下面是一個coredns被成功調度到node3運行的事件記錄。

$ kubectl describe po coredns-5679d9cd77-d6jp6 -n kube-system
...
Events:
  Type    Reason     Age   From               Message
  ----    ------     ----  ----               -------
  Normal  Scheduled  29s   default-scheduler  Successfully assigned kube-system/coredns-5679d9cd77-d6jp6 to node3
  Normal  Pulled     28s   kubelet, node3     Container image "grc.io/kubernetes/coredns:1.2.2" already present on machine
  Normal  Created    28s   kubelet, node3     Created container
  Normal  Started    28s   kubelet, node3     Started container

下面是一個coredns被調度失敗的事件記錄，根據記錄顯示不可調度的原因是沒有節點滿足該Pod的內存請求。

$ kubectl describe po coredns-8447874846-5hpmz -n kube-system
...
Events:
  Type     Reason            Age                From               Message
  ----     ------            ----               ----               -------
  Warning  FailedScheduling  22s (x3 over 24s)  default-scheduler  0/3 nodes are available: 3 Insufficient memory.

label選擇器對pod調度的影響

例如開發者需要部署一個ES集群，由於ES對磁盤有較高的要求，而集群中只有一部分節點有SSD磁盤，那么就需要將標記一下帶有SSD磁盤的節點即給這些節點打上Lable，讓ES的pod只能運行在帶這些標記的節點上。

Lable是附着在K8S對象（如Pod、Service等）上的鍵值對。它可以在創建對象的時候指定，也可以在對象創建后隨時指定。Kubernetes最終將對labels最終索引和反向索引用來優化查詢和watch，在UI和命令行中會對它們排序。通俗的說，就是為K8S對象打上各種標簽，方便選擇和調度。

查看節點信息。

$ kubectl get nodes
NAME    STATUS   ROLES            AGE    VERSION
node1   Ready    etcd,master      128m   v1.12.4
node2   Ready    etcd,lb,master   126m   v1.12.4
node3   Ready    etcd,lb,worker   126m   v1.12.4

選擇出有SSD磁盤的節點，並給這個節點打上標記（label）。

$ kubectl label nodes <your-node-name> disktype=ssd
node/<your-node-name> labeled

驗證節點上是否有成功打上對應label。

$ kubectl get nodes --show-labels
NAME    STATUS   ROLES            AGE    VERSION   LABELS
node1   Ready    etcd,master      139m   v1.12.4   ...disktype=ssd,kubernetes.io/hostname=node1...
node2   Ready    etcd,lb,master   137m   v1.12.4   ...kubernetes.io/hostname=node2...
node3   Ready    etcd,lb,worker   137m   v1.12.4   ...kubernetes.io/hostname=node3...

創建一個ES的pod，調度到有SSD磁盤標記的節點上。在pod的配置里，要指定nodeSelector屬性值為disktype：ssd。這意味着pod啟動后會調度到打上了disktype=ssd標簽的node上。
```
    apiVersion: v1
    kind: Pod
    metadata:
      name: es
    spec:
      containers:
      - name: es
        image: es
      nodeSelector:
        disktype: ssd
```

驗證pod啟動后是否調度到指定節點上。

$ kubectl get pods -o wide
NAMESPACE  NAME                   READY   STATUS    RESTARTS   AGE    IP              NODE    NOMINATED NODE
default    es-5679d9cd77-sbmcx    1/1     Running   0          134m   10.244.2.3      node1   <none>

參考文檔：

Assign Pods to Nodes

節點親和性和Pod親和性對調度的影響

上小節講述的nodeSelector提供了一種非常簡單的方法，可以將pod限制為具有特定標簽的節點。而更為強大的表達約束類型則可以由Affinity和Anti-affinity來配置。即親和性與反親和性的設置。親和性和反親和性包括兩種類型：節點（反）親和性與Pod（反）親和性。

Node affinity與NodeSelector很相似，它允許你根據節點上的標簽限制你的pod可以在哪些節點上進行調度。目前有兩種類型的節點關聯，稱為required During Scheduling Ignored During Execution和 preferred During Scheduling Ignored During Execution。可以將它們分別視為“硬規則”和“軟規則”，前者指定了要將 pod調度到節點上必須滿足的規則，而后者指定調度程序將嘗試強制但不保證的首選項。名稱中的“Ignored During Execution”部分意味着，類似於nodeSelector工作方式，如果節點上的標簽在運行時更改，不再滿足pod上的關聯性規則，pod仍將繼續在該節點上運行。Pod affinity強調的是同一個節點中Pod之間的親和力。可以根據已在節點上運行的pod上的標簽來約束pod可以調度哪些節點上。比如希望運行該Pod到某個已經運行了Pod標簽為app=webserver的節點上，就可以使用Pod affinity來表達這一需求。

目前有兩種類型Pod親和力和反親和力，稱為required During Scheduling Ignored During Execution以及 preferred During Scheduling Ignored During Execution，其中表示“硬規則”與“軟規則”的要求。類似於Node affinity，IgnoredDuringExecution部分表示如果在Pod運行期間改變了Pod標簽導致親和性不滿足以上規則，則pod仍將繼續在該節點上運行。無論是Selector還是Affinity，都是基於Pod或者Node的標簽來表達約束類型。從而讓調度器按照約束規則來調度Pod運行在合理的節點上。

節點親和性如下所示，其中親和性定義為：該pod只能放置在一個含有鍵為kubernetes.io/hostname並且值為node1或者node2標簽的節點上。此外，在滿足該標准的節點中，具有其鍵為app且值為webserver的標簽的節點應該是優選的。

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname
            operator: In
            values:
            - node1
            - node2
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
        preference:
          matchExpressions:
          - key: app
            operator: In
            values:
            - webserver
  containers:
  - name: with-node-affinity
    image: k8s.gcr.io/pause:2.0

Pod反親和性如下所示，其中反親和性定義為：在此拓撲域（相當於以topologyKey的值進行的節點分組）中，命名空間為default下有標簽鍵為app，標簽值為redis的Pod時不在此Node上運行。

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  affinity:
    podAntiAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values:
            - redis
        namespaces:
        - default
        topologyKey: kubernetes.io/hostname
  containers:
  - name: with-node-affinity
    image: k8s.gcr.io/pause:2.0

不使用調度器，手動調度一個pod

Scheduling過程的本質其實就是給Pod賦予nodeName屬性合適的值。那么在開發者進行Pod部署時就直接指定這個值是否可行呢？答案是肯定的。如下配置，將nginx直接分配到node1上運行。

apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  containers:
  - image: nginx
    name: nginx
  nodeName: node1

還有一種指定節點的部署方式——static pod，就像它名稱一樣，他是一個“靜態”的Pod，它不通過apiserver，直接由kubelet進行托管。在kubelet的啟動參數中–pod-manifest-path=DIR，這里的DIR就是放置static pod的編排文件的目錄。把static pod的編排文件放到此目錄下，kubelet就可以監聽到變化，並根據編排文件創建pod。還有一個啟動參數–manifest-url=URL，kubelet會從這個URL下載編排文件，並創建pod。static pod有一個特性是我們使用docker或kubectl刪除static pod后， static pod還能被kubelet進程拉起。通過這種方式保證了應用的可用性。有點相當於systemd的功能，但比systemd好的一點是， static pod的鏡像信息會在apiserver中注冊。這樣的話，我們就可以統一對部署信息進行可視化管理。此外static pod是容器，無需拷貝二進制文件到主機上，應用封裝在鏡像里也保證了環境的一致性，無論是應用的編排文件還是應用的鏡像都方便進行版本管理和分發。

在使用kubeadm部署kubernetes集群時，static pod得到了大量的應用，比如 etcd、kube-scheduler、kube-controller-manager、kube-apiserver 等都是使用 static pod的方式運行的。

使用static pod部署出來的pod名稱與其他pod有很大的不同點，名稱中沒有“亂碼”，只是簡單的將pod的name屬性值與它運行在的node的name屬性值相連接而成。如下所示，coredns是通過Deployment部署出來的名稱中就有部分“亂碼”，而etcd，kube-apiserver這種Pod就是static pod。

$ kubectl get po --all-namespaces
NAMESPACE       NAME                          READY   STATUS    RESTARTS   AGE
kube-system   coredns-5679d9cd77-d6jp6        1/1     Running   0          6m59s
kube-system   etcd-node1                      1/1     Running   0          6m58s
kube-system   etcd-node2                      1/1     Running   0          6m58s
kube-system   etcd-node3                      1/1     Running   0          6m54s
kube-system   kube-proxy-nxj5d                1/1     Running   0          6m52s
kube-system   kube-proxy-tz264                1/1     Running   0          6m56s
kube-system   kube-proxy-zxgxc                1/1     Running   0          6m57s

了解Daemonset角色

DaemonSet是一種控制器，它確保在一些或全部Node上都運行一個指定的Pod。這些Pod就相當於守護進程一樣不期望被終止。當有Node加入集群時，也會為他們新增一個Pod。當有Node從集群移除時，對應的Pod也會被回收。當刪除DaemonSet時將會刪除它創建的所有Pod。一般情況下，Pod運行在哪個節點上是由Kubernates調度器選擇的。但是在Kubernates 1.11版本之前由DaemonSet Controller創建的Pod在創建時已經確定了在哪個節點上運行（pod在創建的時候.spec.nodeName字段就指定了，因此會被scheduler忽略），所以即使調度器沒有啟動DaemonSet Controller創建的Pod仍然也可以被分配node。直到Kubernates 1.11版本，DaemonSet的pod由scheduler調度才作為alpha特性引入。在上小節中kube-proxy就是以DaemonSet的方式進行運行的。

配置Kubernetes scheduler

如果需要配置一些高級的調度策略以滿足我們的需要，可以修改默認調度程序的配置文件。kube-scheduler在啟動的時候可以通過–policy-config-file參數來指定調度策略文件，開發者可以根據自己的需要來組裝Predicates和Priority函數。選擇不同的過濾函數和優先級函數。調整控制優先級函數的權重和過濾函數的順序都會影響調度結果。

官方的Policy文件如下：

kind: Policy
apiVersion: v1
predicates:
- {name: PodFitsHostPorts}
- {name: PodFitsResources}
- {name: NoDiskConflict}
- {name: NoVolumeZoneConflict}
- {name: MatchNodeSelector}
- {name: HostName}
priorities:
- {name: LeastRequestedPriority, weight: 1}
- {name: BalancedResourceAllocation, weight: 1}
- {name: ServiceSpreadingPriority, weight: 1}
- {name: EqualPriority, weight: 1}

其中predicates區域是調度的預選階段所需要的過濾算法。priorities區域是優選階段的評分算法。

總結

再來回顧一下調度的主要構成部分：首先是預選過程，過濾掉不滿足Pod要求的節點，然后是優選過程，對通過要求的節點進行優先級排序，最后選擇優先級最高的節點進行分配。當調度器不工作時或有臨時需求可以手動指定nodeName屬性的值，讓其不通過調度器進行調度直接運行在指定的節點上。

本文由豬齒魚技術團隊原創，轉載請注明出處

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 從0到1使用Kubernetes系列（八）：Kubernetes安全從0到1使用Kubernetes系列（一）：Kubernetes入門進擊的 Kubernetes 調度系統（一）：Kubernetes scheduling framework 從0到1使用Kubernetes系列（七）：網絡【Kubernetes 系列五】在 AWS 中使用 Kubernetes：EKS Kubernetes系列：Kubernetes Dashboard kubernetes系列：（三）、helm的安裝和使用從0到1使用Kubernetes系列（三）：使用Ansible安裝Kubernetes集群 Kubernetes系列(三) - 通過Kubeadm部署kubernetes 進擊的 Kubernetes 調度系統（二）：支持批任務的 Coscheduling/Gang scheduling