摘要
Docker通過 Cgroup 來控制容器使用的資源配額,包括CPU、內存、磁盤三大方面、 基本覆蓋了常見的資源配額和使用量控制。
Cgroup 是 Control Groups 的縮寫,是linux 內核提供的一種可以限制、記錄、隔離進程組所使用的物理資源(如 CPU、內存、磁盤 IO 等等)的機制,被 LXC、docker 等很多項目用於實現進程資源控制。Cgroup 本身是提供將進程進行分組化管理的功能和接口的基礎結構,I/O 或內存的分配控制等具體的資源管理是通過該功能來實現的。
一、參數的各種作用
bikio: 設置限制每個塊設備的輸入輸出控制,例如磁盤,光盤以及usb 等
CPU: 使用調度程序為 Cgroup 任務提供CPU 的訪問
cpuacct: 產生 cgroup 任務的CPU 資源報告。
cpuset: 如果是核心的CPU,這個子系統會為 cgroup 任務分配單獨 的cpu 和內存。
devices: 允許或拒絕 cgroup 任務對設備的訪問。
freezer: 暫停和恢復 cgroup 任務。
memory: 設置每個 cgroup 內存限制以及產生內存資源報告。
net_cls: 標記每個網絡包以供cgroup 方便使用
ns :命名空間子系統。
perl_event: 增加了對每個 group 的監測跟蹤的能力,可以監測屬於某個特定的 group 的所有線程以及運行在特定CPU 上的線程。
[root@node2 stress]# cat /proc/cgroups #subsys_name hierarchy num_cgroups enabled cpuset 10 4 1 cpu 2 94 1 cpuacct 2 94 1 memory 9 94 1 devices 5 94 1 freezer 6 4 1 net_cls 4 4 1 blkio 7 94 1 perf_event 11 4 1 hugetlb 8 4 1 pids 3 4 1 net_prio 4 4 1
二、使用方法
1、使用Dockerfile 來創建一個基於Centos 的stress 工具鏡像
[root@node2 ~]# mkdir /opt/stress/ [root@node2 ~]# cd /opt/stress/ [root@node2 stress]# vi Dockerfile FROM centos:7 MAINTAINER stf RUN yum install -y wget RUN wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo RUN yum install -y stress ~
2、創建鏡像
[root@node2 stress]# docker build -t centos:stress . Sending build context to Docker daemon 2.048kB Step 1/5 : FROM centos:7 ---> 8652b9f0cb4c Step 2/5 : MAINTAINER stf ---> Using cache ---> 80468e999d52 Step 3/5 : RUN yum install -y wget ---> Using cache ---> 1bf1242cb2c2 Step 4/5 : RUN wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo ---> Using cache ---> 6ce5e3c164d0 Step 5/5 : RUN yum install -y stress ---> Using cache ---> 4af74c172bd2 Successfully built 4af74c172bd2 Successfully tagged centos:stress
3、--cpu-shares 參數
使用如下命令,命令中--cpu-shares 參數值不能保證1個 vcpu 或者多少GHzde cpu 資源, 它僅是一個彈性的加權值。
[root@node2 stress]# docker run -itd --cpu-shares 100 centos:stress
d0e644192d2fe6dae8497459c643cabc00138f3de96d98fcab8bd2d58b113caa
說明:默認情況下,每個 Docker容器的cpu份額 都是1024.單獨一個容器的份額是沒有意義的,只有在同時運行多個容器時,容器的 CPU 加權的效果才能體現出來。
例如:兩個容器A B 的CPU 份額分別為 1200 和600 ,在CPU進行時間片分分配的時候,容器A比容器B 多一倍的機會獲得 CPU的時間片。
但分配的結果取決於當時主機和其他容器的運行狀態,實際上也無法保證容器 A 一定能獲得CPU時間片。比如容器A 的進程一直是空閑,
那么容器B 是可以獲取比容器A 更多的CPU 時間片的。極端情況下,例如主機上只運行了一個容器,即使它的cpu 份額只有 100 ,它也可以獨占整個主機的CPU資源
Cgroups 只在容器分配的資源緊缺時,即在需要對容器使用的資源進行限制時,才會生效,因此,無法單純根據某個容器的CPU份額來確定有多少CPU資源分配給它,資源分配 結果取決於同時運行的其他容器的CPU分配和容器中進程運行情況
可以通過 CPU share 設置容器使用CPU 的優先級,比如啟動了兩個容器及運行查看CPU 使用百分比
創建兩個容器
[root@node2 stress]# docker run -ite --name cpu1024 --cpu-shares1024 centos:stress stress -c 10 [root@node2 stress]# docker run -itd --name cpu513 --cpu-shares 512 centos:stress stress -c 10
進入容器,並運行查看cpu 使用的百分比


可以看出兩個容器%CPU 比例為1:2
4、CPU周期限制
Docker 提供了 -cpu-period、--cpu-quota 兩個參數控制容器可以分配到的cpu 時鍾周期
--cpu-period: 是用來指定容器對CPU 的使用要在多長時間內做一次重新分配。
--cpu-quota: 是用來指定在這個周期內,最多可以有多少時間用來跑這個容器。
與 --cpu-shares 不同的是,這種配置是指定一個絕對值,容器對cpu 資源的使用絕對不會超過配置的值
cpu-period 和 cpu-quota 的單位為微秒 (us).cpu-period 的最小值為1000 微秒,最大值為1秒 (10^6 us),默認值為0.1 秒(100000us).
例如:容器進程需要每 1 秒使用單個 CPU 的 0.2 秒時間,可以將 cpu-period 設置 為 1000000(即 1 秒),cpu-quota 設置為 200000(0.2 秒)。
當然,在多核情況下,如果允許容器進程完全占用兩個 CPU,則可以將 cpu-period 設置為 100000(即 0.1 秒), cpu-quota 設置為 200000(0.2 秒)。
[root@node2 stress]# docker run -itd --cpu-period 100000 --cpu-quota 200000 centos:stress 54e857709e10b23d49a14aa36d8f3e5b3d316b69864468060032ed854fadee3b [root@node2 stress]#
進入容器查看
[root@node2 stress]# docker exec -it 54e857709e10 bash [root@54e857709e10 /]# cat /sys/fs/cgroup/cpu/cpu.cfs_period_us 100000 [root@54e857709e10 /]# cat /sys/fs/cgroup/cpu/cpu.cfs_quota_us 200000
5、CPU Core 控制
對多核 CPU 的服務器,Docker 還可以控制容器運行使用那些 CPU 內核,即使用--cpuset-cpus 參數
這對具有多CPU 的服務器尤其有用,可以對需要高性能計算的容器進行性能最優的配置。
[root@node2 stress]# docker run -itd --name cpu1 --cpuset-cpus 0-1 centos:stress 3c4367894fef4887cdc2aec83d8881b52450a3b6e4b0ccea8c35331bd16785d3
執行以上命令需要宿主機為雙核,表示創建的容器只能用 0、1兩個內核。最終生成 的 cgroup 的 CPU 內核配置如下
進入容器查看
[root@node2 stress]# docker exec -it 3c4367894fef bash [root@3c4367894fef /]# cat /sys/fs/cgroup/cpuset/cpuset.cpus 0-1 [root@3c4367894fef /]# exit exit 通過下列指令可以看到容器中進程與cpu內核的綁定關系,達到綁定cpu內核的目的 [root@node2 stress]# docker exec -it 3c4367894fef taskset -c -p 1##容器內部的第一個進程號pid為1,被綁定到指定到的cpu上運行 pid 1's current affinity list: 0,1
6、cpu配置控制參數的混合使用
- 通過cpuset-cpus參數指定容器A使用cpu內核0,容器B使用cpu內核1。
- 在主機上只有這個兩個容器使用對應的cpu內核情況,它們各自占用全部的內核,cpu-shares沒有明顯的效果。
- cpuset-cpus 、cpuset-mems 參數只在多核,內存節點上服務器有效,並且必須與實際的物理配置匹配,否則也無法達到資源控制的目的。
- 在系統具有多個cpu內核的情況 下,需要通過cpuset-cpus 參數為設置容器cpu內核才能方便進行。
測試
[root@node2 stress]# docker run -itd --name cpu2 --cpuset-cpus 1 --cpu-shares 512 centos:stress stress -c 1
7248e9e5a4ed4e90fc567e7549e321f81ccdb7e7cca31b3bb122c2b6c552e352
[root@node2 stress]# docker run -itd --name cpu4 --cpuset-cpus 3 --cpu-shares 1024 centos:stress stress -c 1
12998bfd195ba40eb345ae339b824bfabf351e8986ff254ebb63ea9f9e76b432
#分別進入cpu2和cpu3查看cpu使用率,有下面數據可知,cpu1和3使用率達到了100%,權重對它們沒有影響
進入cpu2查看
[root@node2 stress]# docker exec -it 7248e9e5a4ed bash [root@7248e9e5a4ed /]# top

進入cpu4查看cpu使用情況
[root@node2 stress]# docker exec -it 12998bfd195b bash [root@12998bfd195b /]# top

7、內存限制
- 與操作系統類似,容器可使用的內存包括兩個部分:物理內存和swap
- 容器通過 -m或-memory 設置內存的使用限額,例如: -m 300M; 通過-memory-swap設置內存+swap 的使用限額
- 實例如下,允許容器最多使用250M的內存和350M的swap
[root@node2 stress]# docker run -it -m 250M --memory-swap=350M progrium/stress --vm 1 --vm-bytes 300 // --vm 1 ,代表啟動一個內存工作線程 // --vm-bytes 280 M ,代表每個線程可以分配350M內存
默認情況下,容器可以使用主機上的所有空閑內存。
上述配置與cpu的cgroup的配置類似,Docker會自動為容器目錄/sys/fs/cgroup/memory/docker/<容器ID> 中創建相應的cgroup的配置文件

注:如果分配的內存超過限額,stress線程就會報錯,容器會自動退出

8、Block IO的限制
默認情況下,所有容器能平等地讀寫磁盤,可以通過設置 -blikio-weight 參數來改變容器block IO 的優先級
//--blkio-weight 與--cpu-shares 類似,設置的是相對權重值,默認為500。 [root@node2 stress]# docker run -it --name container_A --blkio-weight 600 centos:stress [root@fb4898c27e33 /]# cat /sys/fs/cgroup/blkio/blkio.weight 600 [root@fb4898c27e33 /]# exit exit [root@node2 stress]# docker run -it --name container_B --blkio-weight 300 centos:stress [root@eed43b789fec /]# cat /sys/fs/cgroup/blkio/blkio.weight 300
9、bps和iops 的限制
bps是byte per second,每秒讀寫的數據量。iops是io per second, 每秒IO的次數。
可通過以下參數控制容器的bps和iops:
--device-read-bps:限制讀某個設備的bps. --device-write-bps:限制寫某個設備的bps. --device-read-iops:限制讀某個設備的iops. --device-write-iops:限制寫某個設備的iops。
下面的示例是限制容器寫/dev/sda 的速率為5 MB/s,/按ctrl+c中斷查看
docker run -it --device-write-bps /dev/sda:5MB centos:stress [root@node2 stress]# docker run -it --device-write-bps /dev/sda:5MB centos:stress [root@7d49c23d0811 /]# dd if=/dev/zero of=test bs=1M/按ctrl+c
43+0 records out 45088768 bytes (45 MB) copied, 8.60301 s, 5.2 MB/s
通過dd命令測試在容器中寫磁盤的速度。因為容器的文件系統是在host /dev/sda 上的,
在容器中寫文件相當於對host /dev/sda進行寫操作。另外,oflag=direct 指定用direct IO方式寫文件,
這樣–device-write-bps 才能生效。
結果表明限速5MB/s 左右。作為對比測試,創建一個普通容器,沒有做限速,查看其寫速度。
[root@node2 stress]# docker run -it centos:stress [root@58c31529eca8 /]# dd if=/dev/zero of=test2 bs=1M count=1024 oflag=direct

在多個容器運行時,必須使用上述的參數設置優化,不能把所有的資源給其中一個容器,會造成資源浪費,容器不穩定。
