linux分析利刃之sar命令詳解
一、sar的概述
在我使用的眾多linux分析工具中,sar是一個非常全面的一個分析工具,可以比較瑞士軍刀,對文件的讀寫,系統調用的使用情況,磁盤IO,CPU相關使用情況,內存使用情況,進程活動等都可以進行有效的分析。sar工具將對系統當前的狀態進行取樣,然后通過計算數據和比例來表達系統的當前運行狀態。它的特點是可以連續對系統取樣,獲得大量的取樣數據。取樣數據和分析的結果都可以存入文件,使用它時消耗的系統資源很小。
話不多說,直接--help查看一下先
[root@lgh ~]# sar --help Usage: sar [ options ] [ <interval> [ <count> ] ] Options are: [ -A ] [ -b ] [ -B ] [ -C ] [ -d ] [ -h ] [ -m ] [ -p ] [ -q ] [ -r ] [ -R ] [ -S ] [ -t ] [ -u [ ALL ] ] [ -v ] [ -V ] [ -w ] [ -W ] [ -y ] [ -I { <int> [,...] | SUM | ALL | XALL } ] [ -P { <cpu> [,...] | ALL } ] [ -j { ID | LABEL | PATH | UUID | ... } ] [ -n { <keyword> [,...] | ALL } ] [ -o [ <filename> ] | -f [ <filename> ] ] [ --legacy ] [ -i <interval> ] [ -s [ <hh:mm:ss> ] ] [ -e [ <hh:mm:ss> ] ]
-A:所有報告的總和 -u:輸出CPU使用情況的統計信息 -v:輸出inode、文件和其他內核表的統計信息 -d:輸出每一個塊設備的活動信息 -r:輸出內存和交換空間的統計信息 -b:顯示I/O和傳送速率的統計信息-R:輸出內存頁面的統計信息 -y:終端設備活動情況 -w:輸出系統交換活動信息 -B:顯示換頁狀態; -e:設置顯示報告的結束時間 -f:從指定文件提取報告 -i:設狀態信息刷新的間隔時間 -p:報告每個CPU的狀態
-q:平均負載分析
使用語法:
sar [options] [-A] [-o file] [ <interval> [ <count> ] ]
其中:interval為采樣間隔,count為采樣次數,默認值是1; -o file表示將命令結果以二進制格式存放在文件中,file 是文件名
二、統計CPU使用情況
sar -u #統計CPU的使用情況,每間隔1秒鍾統計一次總共統計三次:#sar -u 1 3
[root@lgh ~]# sar -u 1 3 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 09:42:45 PM CPU %user %nice %system %iowait %steal %idle 09:42:46 PM all 0.00 0.00 0.00 0.00 0.00 100.00 09:42:47 PM all 0.03 0.00 0.03 0.00 0.00 99.94 09:42:48 PM all 0.03 0.00 0.03 0.00 0.00 99.94 Average: all 0.02 0.00 0.02 0.00 0.00 99.96
[root@lgh ~]# sar -o test.txt -u 1 3 #其中-o表示以二進制的格式把結果存入到test.txt文件中,不能使用cat,more,less等查看 [root@lgh ~]# sar -u -f test.txt #查看該二進制結果文件 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 09:46:14 PM CPU %user %nice %system %iowait %steal %idle 09:46:15 PM all 0.00 0.00 0.00 0.00 0.00 100.00 09:46:16 PM all 0.03 0.00 0.03 0.00 0.00 99.94 09:46:17 PM all 0.00 0.00 0.03 0.00 0.00 99.97 Average: all 0.01 0.00 0.02 0.00 0.00 99.97
%user #用戶空間的CPU使用
%nice 改變過優先級的進程的CPU使用率
%system 內核空間的CPU使用率
%iowait CPU等待IO的百分比
%steal 虛擬機的虛擬機CPU使用的CPU
%idle 空閑的CPU
在以上的顯示當中,主要看%iowait和%idle,%iowait過高表示存在I/O瓶頸,即磁盤IO無法滿足業務需求,如果%idle過低表示CPU使用率比較嚴重,需要結合內存使用等情況判斷CPU是否瓶頸。
三、平均負載統計分析
sar -q #查看平均負載:其中每間隔1秒鍾統計一次總共統計三次 #sar -q 1 3
[root@lgh ~]# sar -q 1 3 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 09:58:39 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 09:58:40 PM 0 1535 0.00 0.03 0.00 09:58:41 PM 0 1535 0.00 0.03 0.00 09:58:42 PM 0 1535 0.00 0.03 0.00 Average: 0 1535 0.00 0.03 0.00
runq-sz 運行隊列的長度(等待運行的進程數,每核的CP不能超過3個)
plist-sz 進程列表中的進程(processes)和線程數(threads)的數量
ldavg-1 最后1分鍾的CPU平均負載,即將多核CPU過去一分鍾的負載相加再除以核心數得出的平均值,5分鍾和15分鍾以此類推
ldavg-5 最后5分鍾的CPU平均負載
ldavg-15 最后15分鍾的CPU平均負載
四、內存統計分析
sar -r #查看內存使用情況,每間隔1秒鍾統計一次總共統計三次:#sar -r 1 3
[root@lgh ~]# sar -r 1 3 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 10:01:15 PM kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit 10:01:16 PM 233550984 30597240 11.58 758212 20745900 14822388 5.44 10:01:17 PM 233550836 30597388 11.58 758212 20745900 14822388 5.44 10:01:18 PM 233551972 30596252 11.58 758212 20745900 14822388 5.44 Average: 233551264 30596960 11.58 758212 20745900 14822388 5.44
kbmemfree 空閑的物理內存大小
kbmemused 使用中的物理內存大小
%memused 物理內存使用率
kbbuffers 內核中作為緩沖區使用的物理內存大小,kbbuffers和kbcached:這兩個值就是free命令中的buffer和cache.
kbcached 緩存的文件大小
kbcommit 保證當前系統正常運行所需要的最小內存,即為了確保內存不溢出而需要的最少內存(物理內存+Swap分區)
commit 這個值是kbcommit與內存總量(物理內存+swap分區)的一個百分比的值
五、統計swap分區
sar -W #查看系統swap分區的統計信息:每間隔1秒鍾統計一次總共統計三次:#sar -W 1 3
[root@lgh ~]# sar -W 1 3 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 10:03:21 PM pswpin/s pswpout/s 10:03:22 PM 0.00 0.00 10:03:23 PM 0.00 0.00 10:03:24 PM 0.00 0.00 Average: 0.00 0.00
pswpin/s 每秒從交換分區到系統的交換頁面(swap page)數量
pswpott/s 每秒從系統交換到swap的交換頁面(swap page)的數量
六、查看磁盤IO
sar -b #查看I/O和傳遞速率的統計信息,每間隔1秒鍾統計一次總共統計三次:#sar -b 1 3
[root@lgh ~]# sar -b 1 3 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 10:06:16 PM tps rtps wtps bread/s bwrtn/s 10:06:17 PM 30.00 0.00 30.00 0.00 240.00 10:06:18 PM 0.00 0.00 0.00 0.00 0.00 10:06:19 PM 0.00 0.00 0.00 0.00 0.00 Average: 10.00 0.00 10.00 0.00 80.00
tps 磁盤每秒鍾的IO總數,等於iostat中的tps
rtps 每秒鍾從磁盤讀取的IO總數
wtps 每秒鍾從寫入到磁盤的IO總數
bread/s 每秒鍾從磁盤讀取的塊總數
bwrtn/s 每秒鍾此寫入到磁盤的塊總數
七、查看磁盤使用情況
sar -d #磁盤使用詳情統計,每間隔1秒鍾統計一次總共統計三次:#sar -d 1 3
[root@lgh ~]# sar -d 1 3 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 10:08:16 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util 10:08:17 PM dev8-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:17 PM dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:17 PM dev253-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:17 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util 10:08:18 PM dev8-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:18 PM dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:18 PM dev253-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:18 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util 10:08:19 PM dev8-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:19 PM dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:08:19 PM dev253-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util Average: dev8-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: dev253-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
DEV 磁盤設備的名稱,如果不加-p,會顯示dev253-0類似的設備名稱,因此加上-p顯示的名稱更直接
tps:每秒I/O的傳輸總數
rd_sec/s 每秒讀取的扇區的總數
wr_sec/s 每秒寫入的扇區的總數
avgrq-sz 平均每次次磁盤I/O操作的數據大小(扇區)
avgqu-sz 磁盤請求隊列的平均長度
await 從請求磁盤操作到系統完成處理,每次請求的平均消耗時間,包括請求隊列等待時間,單位是毫秒(1秒等於1000毫秒),等於尋道時間+隊列時間+服務時間
svctm I/O的服務處理時間,即不包括請求隊列中的時間
%util I/O請求占用的CPU百分比,值越高,說明I/O越慢
八、網絡使用分析
sar -n #統計網絡信息
sar -n選項使用6個不同的開關:DEV,EDEV,NFS,NFSD,SOCK,IP,EIP,ICMP,EICMP,TCP,ETCP,UDP,SOCK6,IP6,EIP6,ICMP6,EICMP6和UDP6 ,DEV顯示網絡接口信息,EDEV顯示關於網絡錯誤的統計數據,NFS統計活動的NFS客戶端的信息,NFSD統計NFS服務器的信息,SOCK顯示套接字信息,ALL顯示所有5個開關。它們可以單獨或者一起使用。
1.10.1:sar -n DEV 1 1: 每間隔1秒統計一次,總計統計1次,下面的average是在多次統計后的平均值
#IFACE 本地網卡接口的名稱
#rxpck/s 每秒鍾接受的數據包
#txpck/s 每秒鍾發送的數據庫
#rxKB/S 每秒鍾接受的數據包大小,單位為KB
#txKB/S 每秒鍾發送的數據包大小,單位為KB
#rxcmp/s 每秒鍾接受的壓縮數據包
#txcmp/s 每秒鍾發送的壓縮包
#rxmcst/s 每秒鍾接收的多播數據包
sar -n EDEV 1 1 #統計網絡設備通信失敗信息:
[root@lgh ~]# sar -n DEV 1 1 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 10:13:52 PM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s 10:13:53 PM lo 16.00 16.00 1.86 1.86 0.00 0.00 0.00 10:13:53 PM eth0 132.00 25.00 14.28 2.34 0.00 0.00 0.00 10:13:53 PM eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:13:53 PM eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10:13:53 PM eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s Average: lo 16.00 16.00 1.86 1.86 0.00 0.00 0.00 Average: eth0 132.00 25.00 14.28 2.34 0.00 0.00 0.00 Average: eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Average: eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00
IFACE 網卡名稱
rxerr/s 每秒鍾接收到的損壞的數據包
txerr/s 每秒鍾發送的數據包錯誤數
coll/s 當發送數據包時候,每秒鍾發生的沖撞(collisions)數,這個是在半雙工模式下才有
rxdrop/s 當由於緩沖區滿的時候,網卡設備接收端每秒鍾丟掉的網絡包的數目
txdrop/s 當由於緩沖區滿的時候,網絡設備發送端每秒鍾丟掉的網絡包的數目
txcarr/s 當發送數據包的時候,每秒鍾載波錯誤發生的次數
rxfram 在接收數據包的時候,每秒鍾發生的幀對其錯誤的次數
rxfifo 在接收數據包的時候,每秒鍾緩沖區溢出的錯誤發生的次數
txfifo 在發生數據包 的時候,每秒鍾緩沖區溢出的錯誤發生的次數
1.10.3:sar -n SOCK 1 1 #統計socket連接信息
sar -n SOCK 1 1 #統計socket連接信息
totsck 當前被使用的socket總數
tcpsck 當前正在被使用的TCP的socket總數
udpsck 當前正在被使用的UDP的socket總數
rawsck 當前正在被使用於RAW的skcket總數
if-frag 當前的IP分片的數目
tcp-tw TCP套接字中處於TIME-WAIT狀態的連接數量
########如果你使用FULL關鍵字,相當於上述DEV、EDEV和SOCK三者的綜合
sar -n TCP 1 3 #TCP連接的統計
active/s 新的主動連接
passive/s 新的被動連接
iseg/s 接受的段
oseg/s 輸出的段
sar -n 使用總結
-n DEV : 網絡接口統計信息。
-n EDEV : 網絡接口錯誤。
-n IP : IP數據報統計信息。
-n EIP : IP錯誤統計信息。
-n TCP : TCP統計信息。
-n ETCP : TCP錯誤統計信息。
-n SOCK : 套接字使用。
九、進程,文件狀態
sar -v #進程、inode、文件和鎖表狀態 ,每間隔1秒鍾統計一次總共統計三次:#sar -v 1 3
[root@lgh ~]# sar -v 1 3 Linux 2.6.32-696.el6.x86_64 (lgh) 10/06/2019 _x86_64_ (32 CPU) 10:17:06 PM dentunusd file-nr inode-nr pty-nr 10:17:07 PM 2165205 5440 371435 1 10:17:08 PM 2165205 5440 371434 1 10:17:09 PM 2165205 5440 371434 1 Average: 2165205 5440 371434 1
dentunusd 在緩沖目錄條目中沒有使用的條目數量
file-nr 被系統使用的文件句柄數量
inode-nr 已經使用的索引數量
pty-nr 使用的pty數量
###這里面的索引和文件句柄值不是ulimit -a查看到的值,而是sysctl.conf里面定義的和內核相關的值, max-file表示系統級別的能夠打開的文件句柄的數量, 而ulimit -n控制進程級別能夠打開的文件句柄的數量,可以使用sysctl -a | grep inode和sysctl -a | grep file查看,具體含義如下:
file-max中指定了系統范圍內所有進程可打開的文件句柄的數量限制(系統級別, kernel-level)。 (The value in file-max denotes the maximum number of file handles that the Linux kernel will allocate)。當收到"Too many open files in system"這樣的錯誤消息時, 就應該曾加這個值了。
# cat /proc/sys/fs/file-max 4096 # echo 100000 > /proc/sys/fs/file-max 或者 # echo ""fs.file-max=65535" >> /etc/sysctl.conf # sysctl -p
file -nr 可以查看系統中當前打開的文件句柄的數量。 他里面包括3個數字: 第一個表示已經分配了的文件描述符數量, 第二個表示空閑的文件句柄數量, 第三個表示能夠打開文件句柄的最大值(跟file-max一致)。 內核會動態的分配文件句柄, 但是不會再次釋放他們(這個可能不適應最新的內核了, 在我的file-nr中看到第二列一直為0, 第一列有增有減)
man bash, 找到說明ulimit的那一節:提供對shell及其啟動的進程的可用資源(包括文件句柄, 進程數量, core文件大小等)的控制。 這是進程級別的, 也就是說系統中某個session及其啟動的每個進程能打開多少個文件描述符, 能fork出多少個子進程等... 當達到上限時, 會報錯"Too many open files"或者遇上Socket/File: Can’t open so many files等
十、常用命令
默認監控: sar 5 5 // CPU和IOWAIT統計狀態 (1) sar -b 5 5 // IO傳送速率 (2) sar -B 5 5 // 頁交換速率 (3) sar -c 5 5 // 進程創建的速率 (4) sar -d 5 5 // 塊設備的活躍信息 (5) sar -n DEV 5 5 // 網路設備的狀態信息 (6) sar -n SOCK 5 5 // SOCK的使用情況 (7) sar -n ALL 5 5 // 所有的網絡狀態信息 (8) sar -P ALL 5 5 // 每顆CPU的使用狀態信息和IOWAIT統計狀態 (9) sar -q 5 5 // 隊列的長度(等待運行的進程數)和負載的狀態 (10) sar -r 5 5 // 內存和swap空間使用情況 (11) sar -R 5 5 // 內存的統計信息(內存頁的分配和釋放、系統每秒作為BUFFER使用內存頁、每秒被cache到的內存頁) (12) sar -u 5 5 // CPU的使用情況和IOWAIT信息(同默認監控) (13) sar -v 5 5 // inode, file and other kernel tablesd的狀態信息 (14) sar -w 5 5 // 每秒上下文交換的數目 (15) sar -W 5 5 // SWAP交換的統計信息(監控狀態同iostat 的si so) (16) sar -x 2906 5 5 // 顯示指定進程(2906)的統計信息,信息包括:進程造成的錯誤、用戶級和系統級用戶CPU的占用情況、運行在哪顆CPU上 (17) sar -y 5 5 // TTY設備的活動狀態 (18) 將輸出到文件(-o)和讀取記錄信息(-f)