背景:通過性能監控發現上線服務器cpu某核占用率已經達到了100%,而且是由我們的某個核心服務導致的。幸虧由於我們的服務進程由多個相同worker(線程)調度承擔的,所以除了CPU占用率高之外,並沒有對服務造成影響。隨着上次我們找到那個吃IO的罪犯,這次我們要追捕的是潛伏在團體中的特務,更加驚險刺激喲!
系統環境
用top命令很容易定位到是誰占用CPU最高。
以我們的這個業務進程(imDevServer)舉例,為什么說這貨是個潛伏者呢?因為這是個多線程的進程,我們要知道實際上占用cpu的最小單位是線程,所以肯定是眾線程中的某一個或幾個占用CPU過高導致的。top -H -p pid命令查看進程內各個線程占用的CPU百分比
如上圖所示我們可以看出id為8863的線程cpu占用率最高。好,我們現在只要能找到他偷走的cpu就好了,雖然這小子嘴巴嚴,但是我們有一套完善的審問流程,不怕他不招。首先出馬的是strace -T -r -c -p pid命令
它的作用是查看系統調用和花費的時間,epoll_wait雖然占用的調用時間多,但是他本身是個正常的阻塞調用。
我們接着讓pstack pid出馬
可以看到每個線程的調用堆棧,找到已經找出的占用CPU最高的那個線程,然后看他的調用堆棧,很容易看出在哪一步邏輯上導致了busy loop,
再使用trace -p tid看看線程的調用過程接着定位到代碼,修復bug,找回被偷走的cpu。
后記:其實作為一個程序員,我感覺最大的樂趣不是洋洋灑灑的寫程序,而是去尋找一些“高端”bug,也許就和有些刑警痴迷於偵破案件一樣,這就是對技術的熱愛。