深入理解Kubernetes資源限制：CPU

本文轉載自查看原文 2019-03-14 16:11 2355 cce/ k8s/ cpu

寫在前面

在上一篇關於Kubernetes資源限制的文章我們討論了如何通過ResourceRequirements設置Pod中容器內存限制，以及容器運行時是如何利用Linux Cgroups實現這些限制的。也分析了requests是用來通知調度器Pod所需資源需求和limits是在宿主機遇到內存壓力時幫助內核限制資源二者的區別。

在本文中，我會繼續深入探討CPU時間的requests和limits。你是否閱讀過第一篇文章並不會影響本文的學習，但是我建議你兩篇文章都讀一讀，從而得到工程師或者集群管理員視角的集群控制全景。

CPU時間

正如我在第一篇文章中指出，限制CPU時間要比限制內存限制更加復雜，好消息是限制CPU也是根據我們前面所了解到的cgroups機制控制的，與限制內存的原理是通用的，我們只需要關注一些細節即可。我們從向前文的例子里添加CPU時間限制開始：

resources:

requests:

memory: 50Mi

cpu: 50m

limits:

memory: 100Mi

cpu: 100m

單位后綴m表示“千分之一個核心”，所以這個資源對象定義了容器進程需要50/1000的核心（5%），並且最多使用100/1000的核心（10%）。類似的，2000m表示2顆完整的核心，當然也可以用2或者2.0來表示。讓我們創建一個只擁有CPU requests的Pod，然后看看Docker是如何配置cgroups的：

$ kubectl run limit-test --image=busybox --requests "cpu=50m" --command -- /bin/sh -c "while true; do sleep 2; done"

deployment.apps "limit-test" created

我們能夠看到Kubernetes已經配置了50m的CPU requests：

$ kubectl get pods limit-test-5b4c495556-p2xkr -o=jsonpath='{.spec.containers[0].resources}'

[cpu:50m]]

我們也可以看到Docker配置了同樣的limits:

$ docker ps | grep busy | cut -d' ' -f1

f2321226620e

$ docker inspect f2321226620e --format '{{.HostConfig.CpuShares}}'

為什么是51而不是50？CPU cgroup和Docker都把一個核心划分為1024份，而Kubernetes則划分為1000份。那么Docker如何把它應用到容器進程上？設置內存限制會讓Docker來配置進程的memory cgroup，同樣設置CPU限制會讓它配置cpu, cpuacct cgroup。

$ ps ax | grep /bin/sh

60554 ? Ss 0:00 /bin/sh -c while true; do sleep 2; done

$ sudo cat /proc/60554/cgroup

...

4:cpu,cpuacct:/kubepods/burstable/pode12b33b1-db07-11e8-b1e1-42010a800070/3be263e7a8372b12d2f8f8f9b4251f110b79c2a3bb9e6857b2f1473e640e8e75

ls -l /sys/fs/cgroup/cpu,cpuacct/kubepods/burstable/pode12b33b1-db07-11e8-b1e1-42010a800070/3be263e7a8372b12d2f8f8f9b4251f110b79c2a3bb9e6857b2f1473e640e8e75

total 0

drwxr-xr-x 2 root root 0 Oct 28 23:19 .

drwxr-xr-x 4 root root 0 Oct 28 23:19 ..

...

-rw-r--r-- 1 root root 0 Oct 28 23:19 cpu.shares

Docker的HostConfig.CpuShares容器屬性映射到了cgroup的cpu.shares上，所以讓我們看看：

$ sudo cat /sys/fs/cgroup/cpu,cpuacct/kubepods/burstable/podb5c03ddf-db10-11e8-b1e1-42010a800070/64b5f1b636dafe6635ddd321c5b36854a8add51931c7117025a694281fb11444/cpu.shares

你可能會驚奇地發現設置一個CPU請求會把這個值發送到cgroup去，而上篇文章中設置內存卻並非如此。下面這行內核對內存軟限制的行為對Kubernetes來說沒什么用處，而設置了cpu.shares則是有用的。我等會會對此做出解釋。那么當我們設置cpu限制時發生了什么？讓我們一起找找看：

$ kubectl run limit-test --image=busybox --requests "cpu=50m" --limits "cpu=100m" --command -- /bin/sh -c "while true; do sleep 2; done"

deployment.apps "limit-test" created

現在我們回過頭來看看Kubernetes Pod資源對象的限制：

$ kubectl get pods limit-test-5b4fb64549-qpd4n -o=jsonpath='{.spec.containers[0].resources}'

map[limits:map[cpu:100m] requests:map[cpu:50m]]

在Docker容器配置里：

$ docker ps | grep busy | cut -d' ' -f1

f2321226620e

$ docker inspect 472a**e32a5 --format '{{.HostConfig.CpuShares}} {{.HostConfig.CpuQuota}} {{.HostConfig.CpuPeriod}}'

51 10000 100000

正如我們所見，CPU請求存放在HostConfig.CpuShares屬性里。CPU限制，盡管不是那么明顯，它由HostConfig.CpuPeriod和HostConfig.CpuQuota兩個值表示，這些Docker容器配置映射為進程的cpu, cpuacct cgroup的兩個屬性：cpu.cfs_period_us和cpu.cfs_quota_us。讓我們仔細看看：

$ sudo cat /sys/fs/cgroup/cpu,cpuacct/kubepods/burstable/pod2f1b50b6-db13-11e8-b1e1-42010a800070/f0845c65c3073e0b7b0b95ce0c1eb27f69d12b1fe2382b50096c4b59e78cdf71/cpu.cfs_period_us

100000

$ sudo cat /sys/fs/cgroup/cpu,cpuacct/kubepods/burstable/pod2f1b50b6-db13-11e8-b1e1-42010a800070/f0845c65c3073e0b7b0b95ce0c1eb27f69d12b1fe2382b50096c4b59e78cdf71/cpu.cfs_quota_us

10000

如我們所料這兩個配置會同樣配置到Docker容器配置里。但是這些值是怎么從Pod的100m CPU限制里轉換過來，並且是怎么實現的呢？原來CPU requests和CPU limits是由兩套不同的cgroup分別進行控制的。Requests使用CPU分片系統，是二者中出現較早的一個。Cpu分片是將每個核心划分為1024份，並且保證每個進程會接收到一定比例的CPU分片。如果只有1024片而這兩個進程都設置cpu.shares為512，那么這兩個進程會各自得到一半的CPU時間。CPU分片系統並不能指定上界，也就是說如果一個進程沒有使用它的這一份，其它進程是可以使用的。

在2010年左右Google和一些公司注意到了這個可能存在的問題（https://ai.google/research/pubs/pub36669）。進而合並了一個更加強大的秒級響應的系統：CPU帶寬控制。帶寬控制系統定義了一個通常是1/10秒的周期，或者100000微秒，以及一個表示周期里一個進程可以使用的最大分片數配額。在這個例子里，我們為我們的Pod申請了100mCPU，它等價於100/1000的核心，或者10000/100000毫秒的CPU時間。所以我們的CPU requests被翻譯為設置這個進程的cpu,cpuacct的配置為cpu.cfs_period_us=100000並且cpu.cfs_quota_us=10000。cfs表示完全公平調度，它是Linux默認的CPU調度器。同時還有一個響應quota值的實時調度器。

我們為Kubernetes設置CPU requests實際上是設置了cpu.shares cgroup屬性，設置CPU limits配置了另一個子系統的cpu.cfs_period_us和cpu.cfs_quota_us屬性。就像內存requests對調度器的意義一樣，CPU requests會讓調度器選擇至少擁有那么多可用CPU分片的節點。不同於內存requests，設置CPU requests也會給cgroup設置相應的屬性，幫助內核實際給進程分配一樣數量的CPU核心分片。Limits的處理也與內存不一樣。超出內存limits會讓你的容器進程成為oom-kill的選項，但是你的進程基本上不可能超出設置的cpu配額，並且永遠不會因為試着使用更多CPU而被驅逐。系統在調度器那里加強了配額的使用，所以進程在到達limits后只會被限流。

如果你並未為你的容器設置這些屬性，或者給他們設置了不准確的值會怎么樣？作為內存，如果你設置了limits但並未指定requests，Kubernetes會默認讓request指向limit。如果你對你的應用需要多少CPU時間很清楚的話這沒問題。那么如果設置requests而不設置limits呢？在這個場景里Kubernetes仍然可以精確地調度你的Pod，內核也會保證它能得到需要的最少資源配額。但是不會限制你的進程只能使用requested數量的資源，它可能會偷取別的進程的分片。不設置requests和limits是最壞的情況，調度器不知道容器需要多少資源，進程的CPU分片也是無限的，這也許會對節點帶來不利的影響。這引出了我想要說的最后一件事情：為每個namespace設置默認的的資源限制。

默認限制

在了解到不為Pod配置資源限制會有一些負面效應后，你可能會想到給它們設置默認值，所以每個提交到集群的Pod都會有一個默認設置。Kubernetes允許我們這么做：基於Namespace，使用v1版本的LimitRange API對象實現。你可以通過在你想限制的Namespace里創建LimitRange對象來建立默認資源限制。示例如下：

apiVersion: v1

kind: LimitRange

metadata:

name: default-limit

spec:

limits:

- default:

memory: 100Mi

cpu: 100m

defaultRequest:

memory: 50Mi

cpu: 50m

- max:

memory: 512Mi

cpu: 500m

- min:

memory: 50Mi

cpu: 50m

type: Container

這里的命名可能會有些迷惑，讓我們把它拆分開看看。limits下的default鍵代表了每種資源的默認limits。在這個場景里，指定Namespace里的任何沒有配置內存限制的Pod都會被設置一個默認100Mi的limits，任何沒有CPU限制的Pod會被設置一個默認100m的limits。defaultRequest鍵表示資源requests。如果創建了一個Pod沒有指定內存requests的Pod，它會被自動分配默認50Mi的內存，以及如果沒有指定CPU requests的話，會被默認分配默認50m的CPU。max和min鍵則有些不同：基本上如果一個Pod的requests或limits超過了這兩種規定的上下界，這個Pod就無法提交通過創建。我目前還沒有找到這種用法的場景，但是你可能會用到，所以如果有的話請你留言告訴我們你用它解決了什么問題。

默認的LimitRange設置通過LimitRange插件應用到Pod上，這個插件存在於Kubernetes Admission Controller里。Admission Controller是可能會在對象被API接收之后，實際創建之前修改它定義的插件集合。在LimitRange場景里，它會檢查每個Pod，如果它沒有指明requests和limits，並且Namespace設置里設置了默認值，它就會把這個默認值應用到Pod上。你會發現LimitRanger通過檢查Pod metadata的annotations里來設置默認值。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深入理解 Kubernetes 資源限制：CPU 深入理解Kubernetes資源限制：內存 Kubernetes — 深入理解容器鏡像 kubernetes-深入理解pod對象（七）深入剖析Kubernetes學習筆記：深入理解鏡像（09） Kubernetes K8S之CPU和內存資源限制詳解【轉】Kubernetes容器資源限制 resources:cpu memory Kubernetes K8S之CPU和內存資源限制詳解深入理解Linux的CPU上下文切換 kubernetes實踐之四：深入理解控制器（workload）