CPU爆滿后的無助感


告警

       晚七點剛好上地鐵,握在手里的手機震動了好幾下,根據震動這幾下的手感已經判斷出這是釘釘在告警了,十有八九就是線上的問題,通過Zabbix監控的一台線上服務器已經五分鍾不可達,這應該不會是網絡網絡問題了,如果是網絡問題,其他線上機器應該都會不可達。沒背電腦,只能干着急,后來大概看了一下雲平台是因為CPU過高導致的。過了大概半個小時,有自動恢復了。

       其實這個問題隱隱約約出現好幾次了,只是沒去重視,今天一來到公司就開始打開xshell,啪啪啪幾下登錄上去之后,袖子一卷,准備好好排查一下,看看到底是何方妖怪讓我的CPU飆升還機器都連不上去。

 

排查

       呆呆的看着這個黑色的框框,沒錯,我呆呆的看着他看了一天了。因為我完全沒有頭緒,沒有思路,從哪里下手?按照平時的套路,看日志,打開幾個相關的日志,眼睛都瞄沒了,也沒找到什么有用的東西。網上搜索一下,看看有么有什么好的辦法排查,打開Google,打開baidu,千篇一律,簡直就是復制粘貼,基本上使用top找到CPU占用高的進程,然后看進程的日志。但是我現在已經不是第一現場了。回想起了以前面試的時候面試過經常會問當你的機器CPU突然很高時,你怎么辦?頭腦里也一次又一次的出現平時說要好好看看linux系統的書,沒看,真后悔,等這次后我一定要把這方面的知識好好學習學習,系統的學習。可是等今晚回去睡一覺,明早一醒來,還是原樣。

 

反思

      日復一日,年復一年,畢業已三年半,運維職業生涯將近四年。三天打魚,兩天曬網,今天看Docker,明天看ELK,樣樣都沒學通。基礎底層的東西還是一竅不通。有時候能明顯的感覺到自己腦袋里那點知識是少之又少。現在做運維感覺都是很先進的東西,AIOps,DevOps,這些東西不學也不行。但我覺得不管什么Ops,基礎還是很重要。還是打算在跟上時代的腳步時,想往系統運維這一塊深入發展。

單從Zabbix的這幾個CPU監控項來說,每個監控項的意義是什么,估計會難道一大批跟我一樣的工程師們。

system.cpu.switches            
system.cpu.util[,guest_nice]
system.cpu.util[,guest]        
system.cpu.util[,idle]        
system.cpu.util[,interrupt]    
system.cpu.util[,iowait]    
system.cpu.util[,nice]      
system.cpu.util[,softirq]    
system.cpu.util[,steal]        
system.cpu.util[,system]    
system.cpu.util[,user]        
system.cpu.intr                
system.cpu.load[percpu,avg1]


不知不覺天已黑,又到了下班,心里多了幾分沉重感。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM