排查方法是參考,不一定對所有人有效:
主要就是在/var/log/下找信息
dmesg | egrep -i -B100 'killed process'
## 或:
egrep -i 'killed process' /var/log/messages
egrep -i -r 'killed process' /var/log
## 或:
journalctl -xb | egrep -i 'killed process'
journalctl -xb | egrep -i 'killed process' -C 5 可以看到更詳細的日志,包括 Out of memory
如果不確定關鍵字是 killed process,則可以去掉關鍵字,慢慢查詢所有日志(一行行看)。
我遇到的問題:
從監控中看,就是22:03左右出現了一個事情,導致各項指標異常高,但是具體的事情不得而知。
沒辦法,只能查看日志。
由於不確定關鍵字,因此只能全局查,我采用的是:
journalctl -xb
然后定位到Oct 20 22:03左右,發現一行日志:
Accepted password for root from 1.2.3.4 port 20109 ssh2
這里的1.2.3.4是我公司的IP,我認為是有人從公司登錄了機器,做了什么事情,於是詢問同事,才得知他做了一些操作,導致進程掛掉,但卻忘記啟動了。