Linux系統CPU占用率較高問題排查思路


作為 Linux 運維工程師,在日常工作中我們會遇到 Linux服務器上出現CPU負載達到100%居高不下的情況,如果CPU 持續跑高,則會影響業務系統的正常運行,帶來企業損失。

Linux 系統 CPU 占用率較高問題排查思路

很多運維的同學遇到這種狀況往往會不知所措,對於CPU過載問題通常使用以下兩種方式即可快速定位:

方法一

***步:使用

  1. top命令,然后按shift+p按照CPU排序 

找到占用CPU過高的進程的pid

第二步:使用

  1. top -H -p [進程id] 

找到進程中消耗資源***的線程的id

第三步:使用

  1. echo 'obase=16;[線程id]' | bc或者printf "%x\n" [線程id]  

將線程id轉換為16進制(字母要小寫)

  1. bc是linux的計算器命令 

第四步:執行

  1. jstack [進程id] |grep -A 10 [線程id的16進制]” 

查看線程狀態信息

方法二

***步:使用

  1. top命令,然后按shift+p按照CPU排序 

找到占用CPU過高的進程

第二步:使用

  1. ps -mp pid -o THREAD,tid,time | sort -rn 

獲取線程信息,並找到占用CPU高的線程

第三步:使用

  1. echo 'obase=16;[線程id]' | bc或者printf "%x\n" [線程id] 

將需要的線程ID轉換為16進制格式

第四步:使用

  1. jstack pid |grep tid -A 30 [線程id的16進制] 

打印線程的堆棧信息

案例分析

1. 場景描述

生產環境下JAVA進程高CPU占用故障排查

2. 解決過程

(1) 根據top命令,發現PID為2633的Java進程占用CPU高達300%,出現故障。

(2) 找到該進程后,如何定位具體線程或代碼呢,首先顯示線程列表,並按照CPU占用高的線程排序:

  1. [root@localhost ~]# ps -mp 2633 -o THREAD,tid,time | sort -rn 

顯示結果如下:

Linux 系統 CPU 占用率較高問題排查思路

找到了耗時***的線程(TID)3626,占用CPU時間有12分鍾了!

(3) 將需要的線程TID轉換為16進制格式

  1. [root@localhost ~]# printf "%x\n" 3626 
  2. e18 

(4) ***使用jstack命令打印出該進程下面的此線程的堆棧信息:

  1. [root@localhost ~]# jstack 2633 |grep "e18" -A 30 

相比故障的解決而言,發現故障也同等的重要!市場上的大多數監控軟件都能實現服務器負載的實時觀測,比如:Zabbix、Nagios、阿里雲監控(針對雲服務器)等。但是當中大部分的軟件都需要運維同學主動去設置規則或者檢測才能發現問題,如何被動的也能收到告警呢?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM