阿里雲監控
一、CPU 相關監控項
- 可參考Linux的top命令來理解各項指標含義。
監控項名稱 | 監控項含義 | 單位 | 說明 |
---|---|---|---|
Host.cpu.idle | 當前空閑CPU百分比 | % | 當前CPU處於空閑狀態的百分比 |
Host.cpu.system | 當前內核空間占用CPU百分比 | % | 指系統上下文切換的消耗,該監控項數值比較高,說明服務器開了太多的進程或者線程 |
Host.cpu.user | 當前用戶空間占用CPU百分比 | % | 用戶進程對CPU的消耗 |
Host.cpu.iowait | 當前等待IO操作的CPU百分比 | % | 該項數值比較高說明有很頻繁的IO操作 |
Host.cpu.other | 其他占用CPU百分比 | % | 其他消耗,計算方式為(Nice + SoftIrq + Irq + Stolen)的消耗 |
Host.cpu.totalUsed | 當前消耗的總CPU百分比 | % | 指以上各項CPU消耗的總和,通常用於報警 |
二、內存相關監控項
- 可參考free命令來理解各項指標含義。
監控項名稱 | 監控項含義 | 單位 | 說明 |
---|---|---|---|
Host.mem.total | 內存總量 | bytes | 服務器的內存總量 |
Host.mem.used | 已用內存量 | bytes | 用戶程序使用的內存 + buffers + cached,buffers為緩沖區占用的內存空間,cached為系統緩存占用的內存空間 |
Host.mem.actualused | 用戶實際使用的內存 | bytes | 計算方法1. (used - buffers - cached)計算方法2. (total - available) Centos 7.2與Ubuntu 16.04以上(包含)的系統使用了新的Linux內核,在內存的估算上更准確, available這一列的具體含義可以參見內核的這個commit. |
Host.mem.free | 剩余內存量 | bytes | 計算方法:(total-used) |
Host.mem.freeutilization | 剩余內存百分比 | % | 計算方法:(available/total*100%) |
Host.mem.usedutilization | 內存使用率 | % | 計算方法:(actualused/total*100%) |
三、系統平均負載監控項
- 可參考Linux top命令來理解各項指標含義。監控項數值越高代表系統越繁忙。
監控項名稱 | 監控項含義 | 單位 |
---|---|---|
Host.load1 | 過去1分鍾的系統平均負載,Windows操作系統沒有此指標 | 無 |
Host.load5 | 過去5分鍾的系統平均負載,Windows操作系統沒有此指標 | 無 |
Host.load15 | 過去15分鍾的系統平均負載,Windows操作系統沒有此指標 | 無 |
四、磁盤相關監控項
- 磁盤使用率與inode使用率可參考Linux df命令。
- 磁盤讀寫指標可參考Linux iostat命令。
監控項名稱 | 監控項含義 | 單位 |
---|---|---|
Host.diskusage.used | 磁盤的已用存儲空間 | bytes |
Host.disk.utilization | 磁盤使用率 | % |
Host.diskusage.free | 磁盤的剩余存儲空間 | bytes |
Host.diskussage.total | 磁盤存儲總量 | bytes |
Host.disk.readbytes | 磁盤每秒讀取的字節數 | bytes/s |
Host.disk.writebytes | 磁盤每秒寫入的字節數 | bytes/s |
Host.disk.readiops | 磁盤每秒的讀請求數量 | 次/秒 |
Host.disk.writeiops | 磁盤每秒的寫請求數量 | 次/秒 |
五、文件系統監控項
監控項名稱 | 監控項含義 | 單位 | 說明 |
---|---|---|---|
Host.fs.inode | inode使用率,UNIX/Linux系統內部使用inode號碼來識別文件,磁盤還未存滿,但inode已經分配完時會出現無法在磁盤新建文件的情況。 | % | inode數量代表文件系統文件數量,大量小文件會導致inode使用率過高 |
六、網絡相關監控項
-
以下為網絡相關指標,可參考Linux iftop。TCP連接數的采集,可參考Linux ss命令。
-
TCP連接數會默認采集 TCP_TOTAL(總連接數)、ESTABLISHED(正常連接狀態),NON_ESTABLISHED(非連接的狀態連接數,ESTABLISHED以外的所有狀態),如果您需要獲取各個狀態連接數的數量,請按如下說明操作:
- Linux
將cloudmonitor/config/conf.properties配置文件的
netstat.tcp.disable
改為false
來開啟采集。修改配置后請重啟Agent。
監控項名稱 | 監控項含義 | 單位 |
---|---|---|
Host.netin.rate | 網卡每秒接收的比特數,即網卡的上行帶寬 | bits/s |
Host.netout.rate | 網卡每秒發送的比特數,即網卡的下行帶寬 | bits/s |
Host.netin.packages | 網卡每秒接收的數據包數 | 個/秒 |
Host.netout.packages | 網卡每秒發送的數據包數 | 個/秒 |
Host.netin.errorpackage | 設備驅動器檢測到的接收錯誤包的數量 | 個/秒 |
Host.netout.errorpackages | 設備驅動器檢測到的發送錯誤包的數量 | 個/秒 |
Host.tcpconnection | 各種狀態下的TCP連接數包括LISTEN、SYN_SENT、ESTABLISHED、SYN_RECV、FIN_WAIT1、CLOSE_WAIT、FIN_WAIT2、LAST_ACK、TIME_WAIT、CLOSING、CLOSED |
七、進程相關監控項
- 進程的CPU使用率、內存使用率可參考Linux top命令,CPU使用率為多核使用情況。
- Host.process.openfile 可參考Linux lsof命令。
- Host.process.number 可參考Linux ps aux |grep ‘關鍵字’ 命令
監控項名稱 | 監控項含義 | 單位 |
---|---|---|
Host.process.cpu | 某個進程消耗的CPU百分比 | % |
Host.process.memory | 某個進程消耗的內存百分比 | % |
Host.process.openfile | 當前進程打開文件數 | 個 |
Host.process.number | 指定關鍵字的進程數 | 個 |