Cgroup

本文轉載自查看原文 2021-11-18 15:53 935 linux系統

Cgroup理解

1、綜述

1、cgroup 可以控制進程組的資源（cpu,memory,i/o等）

2、cgroup 采用樹型結構來控制進程組的資源

3、cgroup 利用資源子系統來分割資源

4、cgroup 是lxc，docker等虛擬化技術的基石

2、cgroup基本概念

1、task任務，就是系統中的一個進程

2、control group 控制族群，一個進程組，cgroup控制資源的基本單位

3、hierarchy層級，控制族群有層級，子層級自動繼承父層級的特性

4、subsystem子系統，資源控制器，它需要附着到一個層級上，一般是頂級層級

3、資源分配

在 CentOS 7 系統中（包括 Red Hat Enterprise Linux 7），通過將 cgroup 層級系統與 systemd 單位樹捆綁，可以把資源管理設置從進程級別移至應用程序級別。默認情況下，systemd 會自動創建 slice、scope 和 service 單位的層級（具體的意思稍后再解釋），來為 cgroup 樹提供統一結構。可以通過 systemctl 命令創建自定義 slice 進一步修改此結構。

如果我們將系統的資源看成一塊餡餅，那么所有資源默認會被划分為 3 個 cgroup：System, User和 Machine。每一個 cgroup 都是一個 slice，每個 slice 都可以有自己的子 slice，如下圖所示：

下面我們以 CPU 資源為例，系統默認創建了 3 個頂級 slice（System, User 和 Machine），每個 slice 都會獲得相同的 CPU 使用時間（僅在 CPU 繁忙時生效），如果 user.slice 想獲得 100% 的 CPU 使用時間，而此時 CPU 比較空閑，那么 user.slice 就能夠如願以償。這三種頂級 slice 的含義如下：

system.slice —— 所有系統 service 的默認位置
user.slice —— 所有用戶會話的默認位置。每個用戶會話都會在該 slice 下面創建一個子 slice，如果同一個用戶多次登錄該系統，仍然會使用相同的子 slice。

machine.slice —— 所有虛擬機和 Linux 容器的默認位置

控制 CPU 資源使用的其中一種方法是 shares。shares 用來設置 CPU 的相對值（你可以理解為權重），並且是針對所有的 CPU（內核），默認值是 1024。因此在上圖中，httpd, sshd, crond 和 gdm 的 CPU shares 均為 1024，System, User 和 Machine 的 CPU shares 也是 1024。

假設該系統上運行了 4 個 service，登錄了兩個用戶，還運行了一個虛擬機。同時假設每個進程都要求使用盡可能多的 CPU 資源（每個進程都很繁忙）。

system.slice 會獲得 33.333% 的 CPU 使用時間，其中每個 service 都會從 system.slice 分配的資源中獲得 1/4 的 CPU 使用時間，即 8.25% 的 CPU 使用時間。
user.slice 會獲得 33.333% 的 CPU 使用時間，其中每個登錄的用戶都會獲得 16.5% 的 CPU 使用時間。假設有兩個用戶：tom 和 jack，如果 tom 注銷登錄或者殺死該用戶會話下的所有進程，jack 就能夠使用 33.333% 的 CPU 使用時間。

machine.slice 會獲得 33.333% 的 CPU 使用時間，如果虛擬機被關閉或處於 idle 狀態，那么 system.slice 和 user.slice 就會從這 33.333% 的 CPU 資源里分別獲得 50% 的 CPU 資源，然后均分給它們的子 slice。

如果想嚴格控制 CPU 資源，設置 CPU 資源的使用上限，即不管 CPU 是否繁忙，對 CPU 資源的使用都不能超過這個上限。可以通過以下兩個參數來設置：

cpu.cfs_period_us = 統計CPU使用時間的周期，單位是微秒（us）

cpu.cfs_quota_us = 周期內允許占用的CPU時間(指單核的時間，多核則需要在設置時累加)

systemctl 可以通過 CPUQuota 參數來設置 CPU 資源的使用上限。例如，如果你想將用戶 tom 的 CPU 資源使用上限設置為 20%，可以執行以下命令：

$ systemctl set-property user-1000.slice CPUQuota=20%

在使用命令 systemctl set-property 時，可以使用 tab 補全：

$ systemctl set-property user-1000.slice

AccuracySec= CPUAccounting= Environment= LimitCPU= LimitNICE= LimitSIGPENDING= SendSIGKILL= BlockIOAccounting= CPUQuota= Group= LimitDATA= LimitNOFILE= LimitSTACK= User= BlockIODeviceWeight= CPUShares= KillMode= LimitFSIZE= LimitNPROC= MemoryAccounting= WakeSystem= BlockIOReadBandwidth= DefaultDependencies= KillSignal= LimitLOCKS= LimitRSS= MemoryLimit= BlockIOWeight= DeviceAllow= LimitAS= LimitMEMLOCK= LimitRTPRIO= Nice= BlockIOWriteBandwidth= DevicePolicy= LimitCORE= LimitMSGQUEUE= LimitRTTIME= SendSIGHUP=

這里有很多屬性可以設置，但並不是所有的屬性都是用來設置 cgroup 的，我們只需要關注 Block, CPU 和 Memory。

如果你想通過配置文件來設置 cgroup，service 可以直接在 /etc/systemd/system/xxx.service.d 目錄下面創建相應的配置文件，slice 可以直接在 /run/systemd/system/xxx.slice.d 目錄下面創建相應的配置文件。事實上通過 systemctl 命令行工具設置 cgroup 也會寫到該目錄下的配置文件中：

$ cat /run/systemd/system/user-1000.slice.d/50-CPUQuota.conf

[Slice]

CPUQuota=20%

查看對應的 cgroup 參數：

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_period_us

100000

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_quota_us

20000

這表示用戶 tom 在一個使用周期內（100 毫秒）可以使用 20 毫秒的 CPU 時間。不管 CPU 是否空閑，該用戶使用的 CPU 資源都不會超過這個限制。

{{% notice note %}} CPUQuota 的值可以超過 100%，例如：如果系統的 CPU 是多核，且 CPUQuota 的值為 200%，那么該 slice 就能夠使用 2 核的 CPU 時間。 {{% /notice %}}

4、cgroup 信息

有兩種方法來查看系統的當前 cgroup 信息。第一種方法是經過 systemd-cgls 命令來查看，它會返回系統的總體 cgroup 層級，cgroup 樹的最高層由 slice 構成，以下所示：bash

$ systemd-cgls --no-page

├─1 /usr/lib/systemd/systemd --switched-root --system --deserialize 22

├─user.slice

│ ├─user-1000.slice

│ │ └─session-11.scope

│ │ ├─9507 sshd: tom [priv]

│ │ ├─9509 sshd: tom@pts/3

│ │ └─9510 -bash

│ └─user-0.slice

│ └─session-1.scope

│ ├─ 6239 sshd: root@pts/0

│ ├─ 6241 -zsh

│ └─11537 systemd-cgls --no-page

└─system.slice

├─rsyslog.service

│ └─5831 /usr/sbin/rsyslogd -n

├─sshd.service

│ └─5828 /usr/sbin/sshd -D

├─tuned.service

│ └─5827 /usr/bin/python2 -Es /usr/sbin/tuned -l -P

├─crond.service

│ └─5546 /usr/sbin/crond -n

能夠看到系統 cgroup 層級的最高層由 user.slice 和 system.slice 組成。由於系統中沒有運行虛擬機和容器，因此沒有 machine.slice，因此當 CPU 繁忙時，user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。

user.slice 下面有兩個子 slice：user-1000.slice 和 user-0.slice，每一個子 slice 都用 User ID (UID) 來命名，所以咱們很容易識別出哪一個 slice 屬於哪一個用戶。例如：從上面的輸出信息中能夠看出 user-1000.slice 屬於用戶 tom，user-0.slice 屬於用戶 root。

systemd-cgls 命令提供的只是 cgroup 層級的靜態信息快照，要想查看 cgroup 層級的動態信息，能夠經過 systemd-cgtop 命令查看：工具

$ systemd-cgtop

Path Tasks %CPU Memory Input/s Output/s

/ 161 1.2 161.0M - -

/system.slice - 0.1 - - -

/system.slice/vmtoolsd.service 1 0.1 - - -

/system.slice/tuned.service 1 0.0 - - -

/system.slice/rsyslog.service 1 0.0 - - -

/system.slice/auditd.service 1 - - - -

/system.slice/chronyd.service 1 - - - -

/system.slice/crond.service 1 - - - -

/system.slice/dbus.service 1 - - - -

/system.slice/gssproxy.service 1 - - - -

/system.slice/lvm2-lvmetad.service 1 - - - -

/system.slice/network.service 1 - - - -

/system.slice/polkit.service 1 - - - -

/system.slice/rpcbind.service 1 - - - -

/system.slice/sshd.service 1 - - - -

/system.slice/system-getty.slice/getty@tty1.service 1 - - - -

/system.slice/systemd-journald.service 1 - - - -

/system.slice/systemd-logind.service 1 - - - -

/system.slice/systemd-udevd.service 1 - - - -

/system.slice/vgauthd.service 1 - - - -

/user.slice 3 - - - -

/user.slice/user-0.slice/session-1.scope 3 - - - -

/user.slice/user-1000.slice 3 - - - -

/user.slice/user-1000.slice/session-11.scope 3 - - - -

/user.slice/user-1001.slice/session-8.scope 3 - - - -

systemd-cgtop 提供的統計數據和控制選項與 top 命令相似，但該命令只顯示那些開啟了資源統計功能的 service 和 slice。好比：若是你想開啟 sshd.service 的資源統計功能，能夠進行以下操做：post

$ systemctl set-property sshd.service CPUAccounting=true MemoryAccounting=true

該命令會在 /etc/systemd/system/sshd.service.d/ 目錄下建立相應的配置文件：性能

$ ll /etc/systemd/system/sshd.service.d/

總用量 8

4 -rw-r--r-- 1 root root 28 5月 31 02:24 50-CPUAccounting.conf

4 -rw-r--r-- 1 root root 31 5月 31 02:24 50-MemoryAccounting.conf

$ cat /etc/systemd/system/sshd.service.d/50-CPUAccounting.conf

[Service]

CPUAccounting=yes

$ cat /etc/systemd/system/sshd.service.d/50-MemoryAccounting.conf

[Service]

MemoryAccounting=yes

配置完成以后，再重啟 sshd 服務：學習

$ systemctl daemon-reload

$ systemctl restart sshd

這時再從新運行 systemd-cgtop 命令，就能看到 sshd 的資源使用統計了。開啟資源使用量統計功能可能會增長系統的負載，由於資源統計也要消耗 CPU 和內存，大多數狀況下使用 top 命令來查看就足夠了。固然了，這是 Linux 系統嘛，一切的控制權都在你本身手里，你想怎么作就怎么作。

5、分配 CPU 相對使用時間

CPU shares 能夠用來設置 CPU 的相對使用時間，接下來咱們就經過實踐來驗證一下。

下面所作的實驗都是在單核 CPU 的系統上進行的，多核與單核的狀況徹底不一樣，文末會單獨討論。

測試對象是 1 個 service 和兩個普通用戶，其中用戶 tom 的 UID 是 1000，能夠經過如下命令查看：

$ cat /etc/passwd|grep tom

tom:x:1000:1000::/home/tom:/bin/bash

建立一個 foo.service：

$ cat /etc/systemd/system/foo.service

[Unit]

Description=The foo service that does nothing useful

After=remote-fs.target nss-lookup.target

[Service]

ExecStart=/usr/bin/sha1sum /dev/zero

ExecStop=/bin/kill -WINCH ${MAINPID}

[Install]

WantedBy=multi-user.target

/dev/zero 在 linux 系統中是一個特殊的設備文件，當你讀它的時候，它會提供無限的空字符，所以 foo.service 會不斷地消耗 CPU 資源。如今咱們將 foo.service 的 CPU shares 改成 2048：

$ mkdir /etc/systemd/system/foo.service.d

$ cat << EOF > /etc/systemd/system/foo.service.d/50-CPUShares.conf

[Service]

CPUShares=2048

EOF

因為系統默認的 CPU shares 值為 1024，因此設置成 2048 后，在 CPU 繁忙的狀況下，foo.service 會盡量獲取 system.slice 的全部 CPU 使用時間。

如今經過 systemctl start foo.service 啟動 foo 服務，並使用 top 命令查看 CPU 使用狀況：

目前沒有其余進程在消耗 CPU，因此 foo.service 可使用幾乎 100% 的 CPU。

如今咱們讓用戶 tom 也參與進來，先將 user-1000.slice 的 CPU shares 設置為 256：

$ systemctl set-property user-1000.slice CPUShares=256

使用用戶 tom 登陸該系統，而后執行命令 sha1sum /dev/zero，再次查看 CPU 使用狀況：

如今是否是感到有點迷惑了？foo.service 的 CPU shares 是 2048，而用戶 tom 的 CPU shares 只有 256，難道用戶 tom 不是應該只能使用 10% 的 CPU 嗎？回憶一下我在上一節提到的，當 CPU 繁忙時，user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。而這里剛好就是這種場景，同時 user.slice 下面只有 sha1sum 進程比較繁忙，因此會得到 50% 的 CPU 使用時間。

最后讓用戶 jack 也參與進來，他的 CPU shares 是默認值 1024。使用用戶 jack 登陸該系統，而后執行命令 sha1sum /dev/zero，再次查看 CPU 使用狀況：

上面咱們已經提到，這種場景下 user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。用戶 tom 的 CPU shares 是 256，而用戶 jack 的 CPU shares 是 1024，所以用戶 jack 得到的 CPU 使用時間是用戶 tom 的 4 倍。

6、分配 CPU 絕對使用時間

上篇文章已經提到，若是想嚴格控制 CPU 資源，設置 CPU 資源的使用上限，即無論 CPU 是否繁忙，對 CPU 資源的使用都不能超過這個上限，能夠經過 CPUQuota 參數來設置。下面咱們將用戶 tom 的 CPUQuota 設置為 5%：

$ systemctl set-property user-1000.slice CPUQuota=5%

這時你會看到用戶 tom 的 sha1sum 進程只能得到 5% 左右的 CPU 使用時間。

若是此時中止 foo.service，關閉用戶 jack 的 sha1sum 進程，你會看到用戶 tom 的 sha1sum 進程仍然只能得到 5% 左右的 CPU 使用時間。

若是某個非核心服務很消耗 CPU 資源，你能夠經過這種方法來嚴格限制它對 CPU 資源的使用，防止對系統中其余重要的服務產生影響。

7、動態設置 cgroup

cgroup 相關的全部操做都是基於內核中的 cgroup virtual filesystem，使用 cgroup 很簡單，掛載這個文件系統就能夠了。系統默認狀況下都是掛載到 /sys/fs/cgroup 目錄下，當 service 啟動時，會將本身的 cgroup 掛載到這個目錄下的子目錄。以 foo.service 為例：

先進入 system.slice 的 CPU 子系統：

$ cd /sys/fs/cgroup/cpu,cpuacct/system.slice

查看 foo.service 的 cgroup 目錄：

$ ls foo.*

zsh: no matches found: foo.*

由於 foo.service 沒有啟動，因此沒有掛載 cgroup 目錄，如今啟動 foo.service，再次查看它的 cgroup 目錄：

$ ls foo.serice

cgroup.clone_children cgroup.procs cpuacct.usage cpu.cfs_period_us cpu.rt_period_us cpu.shares notify_on_release

cgroup.event_control cpuacct.stat cpuacct.usage_percpu cpu.cfs_quota_us cpu.rt_runtime_us cpu.stat tasks

也能夠查看它的 PID 和 CPU shares：

$ cat foo.service/tasks

20225

$ cat foo.service/cpu.shares

2048

理論上咱們能夠在 /sys/fs/cgroup 目錄中動態改變 cgroup 的配置，但我不建議你在生產環境中這么作。若是你想經過實驗來深刻理解 cgroup，能夠多折騰折騰這個目錄。

8、多核 CPU

上面的全部實驗都是在單核 CPU 上進行的，下面咱們簡單討論一下多核的場景，以 2 個 CPU 為例。

首先來講一下 CPU shares，shares 只能針對單核 CPU 進行設置，也就是說，不管你的 shares 值有多大，該 cgroup 最多只能得到 100% 的 CPU 使用時間(即 1 核 CPU)。仍是用本文第 2 節的例子，將 foo.service 的 CPU shares 設置為 2048，啟動 foo.service，這時你會看到 foo.service 僅僅得到了 100% 的 CPU 使用時間，並無徹底使用兩個 CPU 核：

再使用用戶 tom 登陸系統，執行命令 sha1sum /dev/zero，你會發現用戶 tom 的 sha1sum 進程和 foo.service 各使用 1 個 CPU 核：

再來講說 CPUQuota，這個上篇文章結尾已經提過了，如要讓一個 cgroup 徹底使用兩個 CPU 核，能夠經過 CPUQuota 參數來設置。例如：

$ systemctl set-property foo.service CPUQuota=200%

至於進程最后能不能徹底使用兩個 CPU 核，就要看它自身的設計支持不支持了。

總結：CPUShares 用來設置相對權重，CPUQuota 用來限制 user、service 或 VM 的 CPU 使用時間百分比。例如：如果一個 user 同時設置了 CPUShares 和 CPUQuota，假設 CPUQuota 設置成 50%，那么在該 user 的 CPU 使用量達到 50% 之前，可以一直按照 CPUShares 的設置來使用 CPU。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Cgroup（一）簡介 Linux的Cgroup Linux之Cgroup LINUX CGROUP總結 Docker 和 kubelet 的 cgroup driver Cgroup限制內存使用【Cgroup】Centos7上面的Cgroup簡單實驗使用cgroup和tc限制帶寬 Docker資源限制實現——cgroup Cgroup（三）memory和pids子系統

Cgroup

Cgroup理解

1、綜述

2、cgroup基本概念

3、資源分配

4、cgroup 信息

5、 分配 CPU 相對使用時間

6、分配 CPU 絕對使用時間

7、 動態設置 cgroup

8、多核 CPU

免責聲明！

5、分配 CPU 相對使用時間

7、動態設置 cgroup