Cgroup


Cgroup理解

1、綜述

1、cgroup 可以控制進程組的資源(cpu,memory,i/o等)

2、cgroup 采用樹型結構來控制進程組的資源

3、cgroup 利用資源子系統來分割資源

4、cgroup 是lxc,docker等虛擬化技術的基石

2、cgroup基本概念

1、task任務,就是系統中的一個進程

2、control group 控制族群,一個進程組,cgroup控制資源的基本單位

3、hierarchy層級,控制族群有層級,子層級自動繼承父層級的特性

4、subsystem子系統,資源控制器,它需要附着到一個層級上,一般是頂級層級

 

3、資源分配

在 CentOS 7 系統中(包括 Red Hat Enterprise Linux 7),通過將 cgroup 層級系統與 systemd 單位樹捆綁,可以把資源管理設置從進程級別移至應用程序級別。默認情況下,systemd 會自動創建 slice、scope 和 service 單位的層級(具體的意思稍后再解釋),來為 cgroup 樹提供統一結構。可以通過 systemctl 命令創建自定義 slice 進一步修改此結構。

 

如果我們將系統的資源看成一塊餡餅,那么所有資源默認會被划分為 3 個 cgroup:System, User Machine。每一個 cgroup 都是一個 slice,每個 slice 都可以有自己的子 slice,如下圖所示:

 

下面我們以 CPU 資源為例,系統默認創建了 3 個頂級 slice(System, User 和 Machine),每個 slice 都會獲得相同的 CPU 使用時間(僅在 CPU 繁忙時生效),如果 user.slice 想獲得 100% 的 CPU 使用時間,而此時 CPU 比較空閑,那么 user.slice 就能夠如願以償。這三種頂級 slice 的含義如下:

 

  • system.slice —— 所有系統 service 的默認位置
  • user.slice —— 所有用戶會話的默認位置。每個用戶會話都會在該 slice 下面創建一個子 slice,如果同一個用戶多次登錄該系統,仍然會使用相同的子 slice。
  • machine.slice —— 所有虛擬機和 Linux 容器的默認位置

 

控制 CPU 資源使用的其中一種方法是 shares。shares 用來設置 CPU 的相對值(你可以理解為權重),並且是針對所有的 CPU(內核),默認值是 1024。因此在上圖中,httpd, sshd, crond 和 gdm 的 CPU shares 均為 1024,System, User 和 Machine 的 CPU shares 也是 1024

 

假設該系統上運行了 4 個 service,登錄了兩個用戶,還運行了一個虛擬機。同時假設每個進程都要求使用盡可能多的 CPU 資源(每個進程都很繁忙)。

 

  • system.slice 會獲得 33.333% 的 CPU 使用時間,其中每個 service 都會從 system.slice 分配的資源中獲得 1/4 的 CPU 使用時間,即 8.25% 的 CPU 使用時間。
  • user.slice 會獲得 33.333% 的 CPU 使用時間,其中每個登錄的用戶都會獲得 16.5% 的 CPU 使用時間。假設有兩個用戶:tom jack,如果 tom 注銷登錄或者殺死該用戶會話下的所有進程,jack 就能夠使用 33.333% 的 CPU 使用時間。
  • machine.slice 會獲得 33.333% 的 CPU 使用時間,如果虛擬機被關閉或處於 idle 狀態,那么 system.slice 和 user.slice 就會從這 33.333% 的 CPU 資源里分別獲得 50% 的 CPU 資源,然后均分給它們的子 slice。

 

如果想嚴格控制 CPU 資源,設置 CPU 資源的使用上限,即不管 CPU 是否繁忙,對 CPU 資源的使用都不能超過這個上限。可以通過以下兩個參數來設置:

 

cpu.cfs_period_us = 統計CPU使用時間的周期,單位是微秒(us)

cpu.cfs_quota_us = 周期內允許占用的CPU時間(指單核的時間,多核則需要在設置時累加)

 

systemctl 可以通過 CPUQuota 參數來設置 CPU 資源的使用上限。例如,如果你想將用戶 tom 的 CPU 資源使用上限設置為 20%,可以執行以下命令:

 

$ systemctl set-property user-1000.slice CPUQuota=20%

 

在使用命令 systemctl set-property 時,可以使用 tab 補全:

 

$ systemctl set-property user-1000.slice

AccuracySec= CPUAccounting= Environment= LimitCPU= LimitNICE= LimitSIGPENDING= SendSIGKILL= BlockIOAccounting= CPUQuota= Group= LimitDATA= LimitNOFILE= LimitSTACK= User= BlockIODeviceWeight= CPUShares= KillMode= LimitFSIZE= LimitNPROC= MemoryAccounting= WakeSystem= BlockIOReadBandwidth= DefaultDependencies= KillSignal= LimitLOCKS= LimitRSS= MemoryLimit= BlockIOWeight= DeviceAllow= LimitAS= LimitMEMLOCK= LimitRTPRIO= Nice= BlockIOWriteBandwidth= DevicePolicy= LimitCORE= LimitMSGQUEUE= LimitRTTIME= SendSIGHUP=

這里有很多屬性可以設置,但並不是所有的屬性都是用來設置 cgroup 的,我們只需要關注 Block, CPU Memory

 

如果你想通過配置文件來設置 cgroup,service 可以直接在 /etc/systemd/system/xxx.service.d 目錄下面創建相應的配置文件,slice 可以直接在 /run/systemd/system/xxx.slice.d 目錄下面創建相應的配置文件。事實上通過 systemctl 命令行工具設置 cgroup 也會寫到該目錄下的配置文件中:

 

$ cat /run/systemd/system/user-1000.slice.d/50-CPUQuota.conf

[Slice]

CPUQuota=20%

 

 

查看對應的 cgroup 參數:

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_period_us

100000

 

$ cat /sys/fs/cgroup/cpu,cpuacct/user.slice/user-1000.slice/cpu.cfs_quota_us

20000

 

這表示用戶 tom 在一個使用周期內(100 毫秒)可以使用 20 毫秒的 CPU 時間。不管 CPU 是否空閑,該用戶使用的 CPU 資源都不會超過這個限制。

{{% notice note %}} CPUQuota 的值可以超過 100%,例如:如果系統的 CPU 是多核,且 CPUQuota 的值為 200%,那么該 slice 就能夠使用 2 核的 CPU 時間。 {{% /notice %}}

 

4、cgroup 信息

有兩種方法來查看系統的當前 cgroup 信息。第一種方法是經過 systemd-cgls 命令來查看,它會返回系統的總體 cgroup 層級,cgroup 樹的最高層由 slice 構成,以下所示:bash

 

$ systemd-cgls --no-page

├─1 /usr/lib/systemd/systemd --switched-root --system --deserialize 22

├─user.slice

│ ├─user-1000.slice

│ │ └─session-11.scope

│ │ ├─9507 sshd: tom [priv]

│ │ ├─9509 sshd: tom@pts/3

│ │ └─9510 -bash

│ └─user-0.slice

│ └─session-1.scope

│ ├─ 6239 sshd: root@pts/0

│ ├─ 6241 -zsh

│ └─11537 systemd-cgls --no-page

└─system.slice

├─rsyslog.service

│ └─5831 /usr/sbin/rsyslogd -n

├─sshd.service

│ └─5828 /usr/sbin/sshd -D

├─tuned.service

│ └─5827 /usr/bin/python2 -Es /usr/sbin/tuned -l -P

├─crond.service

│ └─5546 /usr/sbin/crond -n

 

能夠看到系統 cgroup 層級的最高層由 user.slice 和 system.slice 組成。由於系統中沒有運行虛擬機和容器,因此沒有 machine.slice,因此當 CPU 繁忙時,user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。

 

user.slice 下面有兩個子 slice:user-1000.slice 和 user-0.slice,每一個子 slice 都用 User ID (UID) 來命名,所以咱們很容易識別出哪一個 slice 屬於哪一個用戶。例如:從上面的輸出信息中能夠看出 user-1000.slice 屬於用戶 tom,user-0.slice 屬於用戶 root。

 

systemd-cgls 命令提供的只是 cgroup 層級的靜態信息快照,要想查看 cgroup 層級的動態信息,能夠經過 systemd-cgtop 命令查看:工具

 

$ systemd-cgtop

Path Tasks %CPU Memory Input/s Output/s

/ 161 1.2 161.0M - -

/system.slice - 0.1 - - -

/system.slice/vmtoolsd.service 1 0.1 - - -

/system.slice/tuned.service 1 0.0 - - -

/system.slice/rsyslog.service 1 0.0 - - -

/system.slice/auditd.service 1 - - - -

/system.slice/chronyd.service 1 - - - -

/system.slice/crond.service 1 - - - -

/system.slice/dbus.service 1 - - - -

/system.slice/gssproxy.service 1 - - - -

/system.slice/lvm2-lvmetad.service 1 - - - -

/system.slice/network.service 1 - - - -

/system.slice/polkit.service 1 - - - -

/system.slice/rpcbind.service 1 - - - -

/system.slice/sshd.service 1 - - - -

/system.slice/system-getty.slice/getty@tty1.service 1 - - - -

/system.slice/systemd-journald.service 1 - - - -

/system.slice/systemd-logind.service 1 - - - -

/system.slice/systemd-udevd.service 1 - - - -

/system.slice/vgauthd.service 1 - - - -

/user.slice 3 - - - -

/user.slice/user-0.slice/session-1.scope 3 - - - -

/user.slice/user-1000.slice 3 - - - -

/user.slice/user-1000.slice/session-11.scope 3 - - - -

/user.slice/user-1001.slice/session-8.scope 3 - - - -

 

systemd-cgtop 提供的統計數據和控制選項與 top 命令相似,但該命令只顯示那些開啟了資源統計功能的 service 和 slice。好比:若是你想開啟 sshd.service 的資源統計功能,能夠進行以下操做:post

 

$ systemctl set-property sshd.service CPUAccounting=true MemoryAccounting=true

 

該命令會在 /etc/systemd/system/sshd.service.d/ 目錄下建立相應的配置文件:性能

 

$ ll /etc/systemd/system/sshd.service.d/

總用量 8

4 -rw-r--r-- 1 root root 28 5月 31 02:24 50-CPUAccounting.conf

4 -rw-r--r-- 1 root root 31 5月 31 02:24 50-MemoryAccounting.conf

$ cat /etc/systemd/system/sshd.service.d/50-CPUAccounting.conf

[Service]

CPUAccounting=yes

$ cat /etc/systemd/system/sshd.service.d/50-MemoryAccounting.conf

[Service]

MemoryAccounting=yes

 

 

配置完成以后,再重啟 sshd 服務:學習

$ systemctl daemon-reload

$ systemctl restart sshd

 

這時再從新運行 systemd-cgtop 命令,就能看到 sshd 的資源使用統計了。開啟資源使用量統計功能可能會增長系統的負載,由於資源統計也要消耗 CPU 和內存,大多數狀況下使用 top 命令來查看就足夠了。固然了,這是 Linux 系統嘛,一切的控制權都在你本身手里,你想怎么作就怎么作。

5、 分配 CPU 相對使用時間

CPU shares 能夠用來設置 CPU 的相對使用時間,接下來咱們就經過實踐來驗證一下。

下面所作的實驗都是在單核 CPU 的系統上進行的,多核與單核的狀況徹底不一樣,文末會單獨討論。

測試對象是 1 個 service 和兩個普通用戶,其中用戶 tom 的 UID 是 1000,能夠經過如下命令查看:

$ cat /etc/passwd|grep tom

tom:x:1000:1000::/home/tom:/bin/bash

 

建立一個 foo.service:

$ cat /etc/systemd/system/foo.service

[Unit]

Description=The foo service that does nothing useful

After=remote-fs.target nss-lookup.target

[Service]

ExecStart=/usr/bin/sha1sum /dev/zero

ExecStop=/bin/kill -WINCH ${MAINPID}

[Install]

WantedBy=multi-user.target

 

/dev/zero 在 linux 系統中是一個特殊的設備文件,當你讀它的時候,它會提供無限的空字符,所以 foo.service 會不斷地消耗 CPU 資源。如今咱們將 foo.service 的 CPU shares 改成 2048:

 

$ mkdir /etc/systemd/system/foo.service.d

$ cat << EOF > /etc/systemd/system/foo.service.d/50-CPUShares.conf

[Service]

CPUShares=2048

EOF

 

因為系統默認的 CPU shares 值為 1024,因此設置成 2048 后,在 CPU 繁忙的狀況下,foo.service 會盡量獲取 system.slice 的全部 CPU 使用時間。

如今經過 systemctl start foo.service 啟動 foo 服務,並使用 top 命令查看 CPU 使用狀況:

目前沒有其余進程在消耗 CPU,因此 foo.service 可使用幾乎 100% 的 CPU。

如今咱們讓用戶 tom 也參與進來,先將 user-1000.slice 的 CPU shares 設置為 256:

 

$ systemctl set-property user-1000.slice CPUShares=256

 

使用用戶 tom 登陸該系統,而后執行命令 sha1sum /dev/zero,再次查看 CPU 使用狀況:

如今是否是感到有點迷惑了?foo.service 的 CPU shares 是 2048,而用戶 tom 的 CPU shares 只有 256,難道用戶 tom 不是應該只能使用 10% 的 CPU 嗎?回憶一下我在上一節提到的,當 CPU 繁忙時,user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。而這里剛好就是這種場景,同時 user.slice 下面只有 sha1sum 進程比較繁忙,因此會得到 50% 的 CPU 使用時間。

最后讓用戶 jack 也參與進來,他的 CPU shares 是默認值 1024。使用用戶 jack 登陸該系統,而后執行命令 sha1sum /dev/zero,再次查看 CPU 使用狀況:

上面咱們已經提到,這種場景下 user.slice 和 system.slice 會各得到 50% 的 CPU 使用時間。用戶 tom 的 CPU shares 是 256,而用戶 jack 的 CPU shares 是 1024,所以用戶 jack 得到的 CPU 使用時間是用戶 tom 的 4 倍。

 

6、分配 CPU 絕對使用時間

上篇文章已經提到,若是想嚴格控制 CPU 資源,設置 CPU 資源的使用上限,即無論 CPU 是否繁忙,對 CPU 資源的使用都不能超過這個上限,能夠經過 CPUQuota 參數來設置。下面咱們將用戶 tom 的 CPUQuota 設置為 5%:

$ systemctl set-property user-1000.slice CPUQuota=5%

 

這時你會看到用戶 tom 的 sha1sum 進程只能得到 5% 左右的 CPU 使用時間。

若是此時中止 foo.service,關閉用戶 jack 的 sha1sum 進程,你會看到用戶 tom 的 sha1sum 進程仍然只能得到 5% 左右的 CPU 使用時間。

若是某個非核心服務很消耗 CPU 資源,你能夠經過這種方法來嚴格限制它對 CPU 資源的使用,防止對系統中其余重要的服務產生影響。

7、 動態設置 cgroup

cgroup 相關的全部操做都是基於內核中的 cgroup virtual filesystem,使用 cgroup 很簡單,掛載這個文件系統就能夠了。系統默認狀況下都是掛載到 /sys/fs/cgroup 目錄下,當 service 啟動時,會將本身的 cgroup 掛載到這個目錄下的子目錄。以 foo.service 為例:

先進入 system.slice 的 CPU 子系統:

$ cd /sys/fs/cgroup/cpu,cpuacct/system.slice

 

查看 foo.service 的 cgroup 目錄:

$ ls foo.*

zsh: no matches found: foo.*

 

由於 foo.service 沒有啟動,因此沒有掛載 cgroup 目錄,如今啟動 foo.service,再次查看它的 cgroup 目錄:

$ ls foo.serice

cgroup.clone_children cgroup.procs cpuacct.usage cpu.cfs_period_us cpu.rt_period_us cpu.shares notify_on_release

cgroup.event_control cpuacct.stat cpuacct.usage_percpu cpu.cfs_quota_us cpu.rt_runtime_us cpu.stat tasks

 

也能夠查看它的 PID 和 CPU shares:

$ cat foo.service/tasks

20225

$ cat foo.service/cpu.shares

2048

 

理論上咱們能夠在 /sys/fs/cgroup 目錄中動態改變 cgroup 的配置,但我不建議你在生產環境中這么作。若是你想經過實驗來深刻理解 cgroup,能夠多折騰折騰這個目錄。

8、多核 CPU

上面的全部實驗都是在單核 CPU 上進行的,下面咱們簡單討論一下多核的場景,以 2 個 CPU 為例。

首先來講一下 CPU shares,shares 只能針對單核 CPU 進行設置,也就是說,不管你的 shares 值有多大,該 cgroup 最多只能得到 100% 的 CPU 使用時間(即 1 核 CPU)。仍是用本文第 2 節的例子,將 foo.service 的 CPU shares 設置為 2048,啟動 foo.service,這時你會看到 foo.service 僅僅得到了 100% 的 CPU 使用時間,並無徹底使用兩個 CPU 核:

再使用用戶 tom 登陸系統,執行命令 sha1sum /dev/zero,你會發現用戶 tom 的 sha1sum 進程和 foo.service 各使用 1 個 CPU 核:

再來講說 CPUQuota,這個上篇文章結尾已經提過了,如要讓一個 cgroup 徹底使用兩個 CPU 核,能夠經過 CPUQuota 參數來設置。例如:

$ systemctl set-property foo.service CPUQuota=200%

 

至於進程最后能不能徹底使用兩個 CPU 核,就要看它自身的設計支持不支持了。

 

總結:CPUShares 用來設置相對權重,CPUQuota 用來限制 user、service 或 VM 的 CPU 使用時間百分比。例如:如果一個 user 同時設置了 CPUShares 和 CPUQuota,假設 CPUQuota 設置成 50%,那么在該 user 的 CPU 使用量達到 50% 之前,可以一直按照 CPUShares 的設置來使用 CPU。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM