linux(centos8):使用cgroups做資源限制

本文轉載自查看原文 2020-06-14 20:55 2107 cgroups/ systemctl/ systemd/ linux/ cgroupfs/ cpu/ centos8/ 限制內存/ cgroup/ centos

一，什么是cgroups?

1，cgroups是資源的控制組，它提供了一套機制用於控制一組特定進程對資源的使用。

cgroups綁定一個進程集合到一個或多個限制資源使用的子系統上。

2, cgroups是容器的實現基礎之一:

其中:Namespace主要用於隔離資源

Cgroups用來提供對一組進程以及將來子進程的資源限制

說明：劉宏締的架構森林是一個專注架構的博客，地址：https://www.cnblogs.com/architectforest

對應的源碼可以訪問這里獲取： https://github.com/liuhongdi/

說明：作者:劉宏締郵箱: 371125307@qq.com

二，cgroups的用途:

主要有4個:

Resource limitation: 限制資源使用，例：內存使用上限/cpu的使用限制

Prioritization: 優先級控制，例：CPU利用/磁盤IO吞吐

Accounting: 一些審計或一些統計

Control: 掛起進程/恢復執行進程

三，cgroups相關的操作命令:

1,查看當前kernel中cgroup是否開啟:

[root@blog ~]$ more /boot/config-`uname -r` | grep -i cgroup
CONFIG_CGROUPS=y
CONFIG_BLK_CGROUP=y
# CONFIG_DEBUG_BLK_CGROUP is not set
CONFIG_CGROUP_WRITEBACK=y
CONFIG_CGROUP_SCHED=y
CONFIG_CGROUP_PIDS=y
...

說明：CONFIG_CGROUPS=y

表示已開啟cgroup

2,cgroup目前存在v1/v2 兩個版本，

v2 版本與v1相比,在目錄組織上更清晰，管理更方便，

如何檢查當前內核版本是否支持cgroup v2?

方法是:查看文件系統是否支持cgroup2

[root@node1 ~]# grep cgroup /proc/filesystems
nodev   cgroup
nodev   cgroup2

如果看到cgroup2，表示支持cgroup v2

3,列出所有掛載的cgroup掛載點

[root@blog ~]$ mount | grep cgroup
tmpfs on /sys/fs/cgroup type tmpfs (ro,nosuid,nodev,noexec,mode=755)
cgroup on /sys/fs/cgroup/systemd type cgroup (rw,nosuid,nodev,noexec,relatime,xattr,release_agent=/usr/lib/systemd/systemd-cgroups-agent,name=systemd)
cgroup on /sys/fs/cgroup/cpu,cpuacct type cgroup (rw,nosuid,nodev,noexec,relatime,cpu,cpuacct)
cgroup on /sys/fs/cgroup/devices type cgroup (rw,nosuid,nodev,noexec,relatime,devices)
cgroup on /sys/fs/cgroup/blkio type cgroup (rw,nosuid,nodev,noexec,relatime,blkio)
cgroup on /sys/fs/cgroup/net_cls,net_prio type cgroup (rw,nosuid,nodev,noexec,relatime,net_cls,net_prio)
cgroup on /sys/fs/cgroup/rdma type cgroup (rw,nosuid,nodev,noexec,relatime,rdma)
cgroup on /sys/fs/cgroup/memory type cgroup (rw,nosuid,nodev,noexec,relatime,memory)
cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,nosuid,nodev,noexec,relatime,cpuset)
cgroup on /sys/fs/cgroup/freezer type cgroup (rw,nosuid,nodev,noexec,relatime,freezer)
cgroup on /sys/fs/cgroup/perf_event type cgroup (rw,nosuid,nodev,noexec,relatime,perf_event)
cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,nosuid,nodev,noexec,relatime,hugetlb)
cgroup on /sys/fs/cgroup/pids type cgroup (rw,nosuid,nodev,noexec,relatime,pids)

注意:/sys/fs/cgroup的掛載方式是ro,表示readonly

因為/sys/fs/cgroup 目錄由 systemd 在系統啟動的過程中掛載,

它把目錄掛載為只讀的類型，這個目錄下不能再手動創建目錄

2,列出cgroup支持的子系統?

[root@blog ~]# ll /sys/fs/cgroup/
total 0
dr-xr-xr-x 4 root root  0 Jan 10 18:03 blkio
lrwxrwxrwx 1 root root 11 Jan 10 18:03 cpu -> cpu,cpuacct
lrwxrwxrwx 1 root root 11 Jan 10 18:03 cpuacct -> cpu,cpuacct
dr-xr-xr-x 2 root root  0 Jan 10 18:03 cpu,cpuacct
dr-xr-xr-x 2 root root  0 Jan 10 18:03 cpuset
dr-xr-xr-x 4 root root  0 Jan 10 18:03 devices
dr-xr-xr-x 2 root root  0 Jan 10 18:03 freezer
dr-xr-xr-x 2 root root  0 Jan 10 18:03 hugetlb
dr-xr-xr-x 4 root root  0 Jan 10 18:03 memory
lrwxrwxrwx 1 root root 16 Jan 10 18:03 net_cls -> net_cls,net_prio
dr-xr-xr-x 2 root root  0 Jan 10 18:03 net_cls,net_prio
lrwxrwxrwx 1 root root 16 Jan 10 18:03 net_prio -> net_cls,net_prio
dr-xr-xr-x 2 root root  0 Jan 10 18:03 perf_event
dr-xr-xr-x 4 root root  0 Jan 10 18:03 pids
dr-xr-xr-x 2 root root  0 Jan 10 18:03 rdma
dr-xr-xr-x 5 root root  0 Jan 10 18:03 systemd

也可以通過/proc/cgroups來查看

[root@blog ~]# more /proc/cgroups
#subsys_name    hierarchy       num_cgroups     enabled
cpuset  8       1       1
cpu     2       1       1
cpuacct 2       1       1
blkio   4       29      1
memory  7       1703    1
devices 3       60      1
freezer 9       1       1
net_cls 5       1       1
perf_event      10      1       1
net_prio        5       1       1
hugetlb 11      1       1
pids    12      67      1
rdma    6       1       1

各個子系統的說明：

cpuset:把任務綁定到特定的cpu

cpu: 限定cpu的時間份額

cpuacct: 統計一組task占用cpu資源的報告

blkio:限制控制對塊設備的讀寫

memory: 限制內存使用

devices: 限制設備文件的創建\限制對設備文件的讀寫

freezer: 暫停/恢復cgroup中的task

net_cls: 用classid標記該cgroup內的task產生的報文

perf_event: 允許perf監控cgroup的task數據

net_prio: 設置網絡流量的優先級

hugetlb: 限制huge page 內存頁數量

pids: 限制cgroup中可以創建的進程數

rdma: 限制RDMA資源(Remote Direct Memory Access，遠程直接數據存取)

四，查看一個進程上的cgroup限制:

以nginx的進程為例

[root@blog ~]# ps auxfww | grep nginx:
root   491  0.0  0.0  71028  3368 ?  Ss   May18   0:00 nginx: master process /usr/local/openresty/nginx/sbin/nginx
nginx  492  0.0  0.0 102496  7036 ?  S    May18   0:00  \_ nginx: worker process
nginx  493  0.0  0.0 102764  7496 ?  S    May18   0:00  \_ nginx: worker process
nginx  494  0.0  0.0 102496  5856 ?  S    May18   0:00  \_ 
...

我們取上面的492這個進程:

查看492這個進程的cgroup限制

[root@blog ~]# more /proc/492/cgroup
12:pids:/system.slice/openresty.service
11:hugetlb:/
10:perf_event:/
9:freezer:/
8:cpuset:/
7:memory:/system.slice/openresty.service
6:rdma:/
5:net_cls,net_prio:/
4:blkio:/system.slice/openresty.service
3:devices:/system.slice/openresty.service
2:cpu,cpuacct:/
1:name=systemd:/system.slice/openresty.service

內容說明：

第一列：cgroupid,和/proc/cgroups中的id是一致的,

第二列：cgroup的子系統

第三列：進程在 cgroup 樹中的路徑

例：

[root@blog ~]# ls /sys/fs/cgroup/systemd/system.slice/openresty.service/
cgroup.clone_children  cgroup.procs  notify_on_release  tasks

五，使用libcgroup-tools做進程的限制

libcgroup-tools包含了多個cg相關的命令，方便進行cgroups的測試

說明：從centos7開始，已經默認不再使用libcgroup套件，
所以大家把它作為演示使用即可

1,安裝

[root@blog ~]# dnf install libcgroup-tools

2,安裝/測試運行stress

[root@node1 stress]# pwd
/usr/local/source/stress
[root@node1 stress]# wget https://download-ib01.fedoraproject.org/pub/epel/7/x86_64/Packages/s/stress-1.0.4-16.el7.x86_64.rpm
[root@node1 stress]# rpm -ivh stress-1.0.4-16.el7.x86_64.rpm

運行stress

啟動1個消耗內存的進程，每個進程占用50M內存

#--vm-keep 一直占用內存，(默認是不斷釋放並重新分配內存)

[root@node1 memory]# stress -m 1 --vm-bytes 50M --vm-keep
stress: info: [14327] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd

用pidstat查看效果

[root@node1 ~]# pidstat -r | grep stress
14時57分13秒     0     46088      0.01      0.00    7948     972   0.03  stress
14時57分13秒     0     46089      0.07      0.00   59152   51496   1.34  stress

3,在cgroup中添加一個內存限制:再次用stress測試:

[root@node1 memory]# pwd
/sys/fs/cgroup/memory
[root@node1 memory]# mkdir lhd_stress_memory

注意:

cgroups 文件系統會在創建文件目錄的時候自動創建相應的配置文件

[root@node1 memory]# ls lhd_stress_memory/
cgroup.clone_children  memory.kmem.limit_in_bytes          memory.kmem.tcp.usage_in_bytes  memory.memsw.max_usage_in_bytes  memory.soft_limit_in_bytes  tasks
cgroup.event_control   memory.kmem.max_usage_in_bytes      memory.kmem.usage_in_bytes      memory.memsw.usage_in_bytes      memory.stat
cgroup.procs           memory.kmem.slabinfo                memory.limit_in_bytes           memory.move_charge_at_immigrate  memory.swappiness
memory.failcnt         memory.kmem.tcp.failcnt             memory.max_usage_in_bytes       memory.numa_stat                 memory.usage_in_bytes
memory.force_empty     memory.kmem.tcp.limit_in_bytes      memory.memsw.failcnt            memory.oom_control               memory.use_hierarchy
memory.kmem.failcnt    memory.kmem.tcp.max_usage_in_bytes  memory.memsw.limit_in_bytes     memory.pressure_level            notify_on_release

可以看到新建目錄下面已建好了配置文件

設置這個cgroup內存限制的最大使用內存：

[root@node1 memory]# expr 1024 \* 1024 \* 10
10485760

設置內存的限制

[root@node1 memory]# echo 10485760 > lhd_stress_memory/memory.limit_in_bytes

用stress測試內存限制

[root@node1 memory]# cgexec -g memory:lhd_stress_memory  stress -m 1 --vm-bytes 100M --vm-keep --verbose
stress: info: [35293] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd
stress: dbug: [35293] using backoff sleep of 3000us
stress: dbug: [35293] --> hogvm worker 1 [35294] forked
stress: dbug: [35294] allocating 104857600 bytes ...
stress: dbug: [35294] touching bytes in strides of 4096 bytes ...
stress: FAIL: [35293] (415) <-- worker 35294 got signal 9
stress: WARN: [35293] (417) now reaping child worker processes
stress: FAIL: [35293] (451) failed run completed in 0s

因為有內存10M的限制，導致stress在申請100M內存時收到了 SIGKILL(signal 9) 信號

測試改為10M范圍內

[root@node1 memory]# cgexec -g memory:lhd_stress_memory  stress -m 1 --vm-bytes 9M --vm-keep --verbose

此時可以正常運行

用pidstat查看效果

[root@node1 ~]# pidstat -r | grep stress
14時34分21秒     0     41767      0.05      0.00    7948    1148   0.03  stress
14時34分21秒     0     41768      0.07      0.00   17164    9328   0.24  stress

六，與systemd相關的cgroup操作:

1,systemd-cgtop:顯示 cgoups 的實時資源消耗情況

[root@node1 ~]# systemd-cgtop            
Control Group                                              Tasks   %CPU   Memory  Input/s Output/s
/                                                            211    4.0     1.0G        -        -
/system.slice                                                 84    1.5   831.7M        -        -
/user.slice                                                    9    0.9    64.3M        -        -
/system.slice/kubelet.service                                 15    0.6    31.3M        -        
…

2,systemd-cgls :查看 cgroups 的層級結構

[root@node1 ~]# systemd-cgls
Control group /:
-.slice
├─user.slice
│ └─user-0.slice
│   ├─session-3.scope
│   │ ├─14349 sshd: root [priv]
…

各slice的說明：

-.slice：根slice

user.slice: 下面是所有的用戶會話

system.slice: 下面是所有系統service

machine.slice: 下面是所有虛擬機和容器

什么是slice:一組進程:由service或會話/容器/虛擬機組成

3,為systemd啟動的服務添加cgroup限制

查看有哪些cgroup配置項可用

[root@node1 ~]# man systemd.resource-control

例子：

查看nginx的內存限制:

[root@node1 ~]# more /sys/fs/cgroup/memory/system.slice/nginx.service/memory.limit_in_bytes
9223372036854771712

上面是沒有手動設置時的默認值

設置內存限制

[root@node1 ~]# systemctl set-property nginx.service MemoryLimit=512M

再次查看

[root@node1 ~]# more /sys/fs/cgroup/memory/system.slice/nginx.service/memory.limit_in_bytes
536870912

注意:即使服務重啟,這個cgroup限制仍然會起作用，

因為systemctl已經把它寫到了service文件中，

[root@node1 ~]# systemctl cat nginx
# /usr/lib/systemd/system/nginx.service
[Unit]
Description=The nginx HTTP and reverse proxy server
After=network.target remote-fs.target nss-lookup.target
 
[Service]
Type=forking
PIDFile=/run/nginx.pid
# Nginx will fail to start if /run/nginx.pid already exists but has the wrong
# SELinux context. This might happen when running `nginx -t` from the cmdline.
# https://bugzilla.redhat.com/show_bug.cgi?id=1268621
ExecStartPre=/usr/bin/rm -f /run/nginx.pid
ExecStartPre=/usr/sbin/nginx -t
ExecStart=/usr/sbin/nginx
ExecReload=/bin/kill -s HUP $MAINPID
KillSignal=SIGQUIT
TimeoutStopSec=5
KillMode=mixed
PrivateTmp=true
 
[Install]
WantedBy=multi-user.target
 
# /etc/systemd/system.control/nginx.service.d/50-MemoryLimit.conf
# This is a drop-in unit file extension, created via "systemctl set-property"
# or an equivalent operation. Do not edit.
[Service]
MemoryLimit=536870912

4,其他常用命令：

設置cpu使用率最高不超過單顆cpu的80%

[root@node1 ~]# systemctl set-property nginx.service CPUQuota=80%

七，查看linux的版本:

[root@node1 ~]# more /etc/redhat-release
CentOS Linux release 8.1.1911 (Core)
[root@node1 ~]# uname -r
4.18.0-147.el8.x86_64

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 linux(centos8):使用namespace做資源隔離 centos8平台使用ulimit做系統資源限制容器基礎(三): 使用Cgroups進行資源限制 Docker資源限制與Cgroups 理解Docker（4）：Docker 容器使用 cgroups 限制資源使用容器的隔離(namespace)與資源限制(cgroups) Linux系統的資源使用限制 centos 6,7 上cgroup資源限制使用舉例 centos8平台使用stress做壓力測試 centos7下安裝docker（9容器對資源的使用限制-內存）