作為 Linux 運維工程師,在日常工作中我們會遇到 Linux服務器上出現CPU負載達到100%居高不下的情況,如果CPU 持續跑高,則會影響業務系統的正常運行,帶來企業損失。
很多運維的同學遇到這種狀況往往會不知所措,對於CPU過載問題通常使用以下兩種方式即可快速定位:
方法一
***步:使用
- top命令,然后按shift+p按照CPU排序
找到占用CPU過高的進程的pid
第二步:使用
- top -H -p [進程id]
找到進程中消耗資源***的線程的id
第三步:使用
- echo 'obase=16;[線程id]' | bc或者printf "%x\n" [線程id]
將線程id轉換為16進制(字母要小寫)
- bc是linux的計算器命令
第四步:執行
- jstack [進程id] |grep -A 10 [線程id的16進制]”
查看線程狀態信息
方法二
***步:使用
- top命令,然后按shift+p按照CPU排序
找到占用CPU過高的進程
第二步:使用
- ps -mp pid -o THREAD,tid,time | sort -rn
獲取線程信息,並找到占用CPU高的線程
第三步:使用
- echo 'obase=16;[線程id]' | bc或者printf "%x\n" [線程id]
將需要的線程ID轉換為16進制格式
第四步:使用
- jstack pid |grep tid -A 30 [線程id的16進制]
打印線程的堆棧信息
案例分析
1. 場景描述
生產環境下JAVA進程高CPU占用故障排查
2. 解決過程
(1) 根據top命令,發現PID為2633的Java進程占用CPU高達300%,出現故障。
(2) 找到該進程后,如何定位具體線程或代碼呢,首先顯示線程列表,並按照CPU占用高的線程排序:
- [root@localhost ~]# ps -mp 2633 -o THREAD,tid,time | sort -rn
顯示結果如下:
找到了耗時***的線程(TID)3626,占用CPU時間有12分鍾了!
(3) 將需要的線程TID轉換為16進制格式
- [root@localhost ~]# printf "%x\n" 3626
- e18
(4) ***使用jstack命令打印出該進程下面的此線程的堆棧信息:
- [root@localhost ~]# jstack 2633 |grep "e18" -A 30
相比故障的解決而言,發現故障也同等的重要!市場上的大多數監控軟件都能實現服務器負載的實時觀測,比如:Zabbix、Nagios、阿里雲監控(針對雲服務器)等。但是當中大部分的軟件都需要運維同學主動去設置規則或者檢測才能發現問題,如何被動的也能收到告警呢?