一次服務器CPU占用率高的定位分析


背景:通過性能監控發現上線服務器cpu某核占用率已經達到了100%,而且是由我們的某個核心服務導致的。幸虧由於我們的服務進程由多個相同worker(線程)調度承擔的,所以除了CPU占用率高之外,並沒有對服務造成影響。隨着上次我們找到那個吃IO的罪犯,這次我們要追捕的是潛伏在團體中的特務,更加驚險刺激喲!


系統環境

wKiom1P2jSPi5DkFAABnC85tHrE367.jpg

用top命令很容易定位到是誰占用CPU最高。

wKioL1P70pvB-yfpAADsLIYJdMc829.jpg

以我們的這個業務進程(imDevServer)舉例,為什么說這貨是個潛伏者呢?因為這是個多線程的進程,我們要知道實際上占用cpu的最小單位是線程,所以肯定是眾線程中的某一個或幾個占用CPU過高導致的。top -H -p pid命令查看進程內各個線程占用的CPU百分比

wKioL1P70obxRp3tAAFC0E_uv3k946.jpg

如上圖所示我們可以看出id為8863的線程cpu占用率最高。好,我們現在只要能找到他偷走的cpu就好了,雖然這小子嘴巴嚴,但是我們有一套完善的審問流程,不怕他不招。首先出馬的是strace -T -r -c -p pid命令

wKiom1P70VvQh_8OAADA6MBgQag126.jpg

它的作用是查看系統調用和花費的時間,epoll_wait雖然占用的調用時間多,但是他本身是個正常的阻塞調用。

我們接着讓pstack pid出馬

wKioL1P70k-Col9DAAdHOufy_ec026.jpg

可以看到每個線程的調用堆棧,找到已經找出的占用CPU最高的那個線程,然后看他的調用堆棧,很容易看出在哪一步邏輯上導致了busy loop,

再使用trace -p tid看看線程的調用過程接着定位到代碼,修復bug,找回被偷走的cpu。

后記:其實作為一個程序員,我感覺最大的樂趣不是洋洋灑灑的寫程序,而是去尋找一些“高端”bug,也許就和有些刑警痴迷於偵破案件一樣,這就是對技術的熱愛。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM