出處:JAVA進程突然消失的原因?
問題描述
在實際生產環境下,如果我們遇見Java進程突然消失,該如何去排查問題?
思路
可能有幾種原因:
①、Java應用程序的問題:發生OOM導致進程Crash
最常見的是發生堆內存異常“java.lang.OutOfMemoryError: Java heap space”,排查步驟如下:
- Step1: 查看JVM參數 -XX:+HeapDumpOnOutOfMemoryError 和 -XX:HeapDumpPath=*/java.hprof;
- Step2: 根據HeapDumpPath指定的路徑查看是否產生dump文件;
- Step3: 若存在dump文件,使用Jhat、VisualVM等工具分析即可;
②、JVM出錯:JVM或JDK自身的Bug導致進程Crash
當JVM發生致命錯誤導致崩潰時,會生成一個hs_err_pid_xxx.log這樣的文件,該文件包含了導致 JVM crash 的重要信息,我們可以通過分析該文件定位到導致 JVM Crash 的原因,從而修復保證系統穩定。
默認情況下,該文件是生成在工作目錄下的,當然也可以通過 JVM 參數指定生成路徑:
-XX:ErrorFile=/var/log/hs_err_pid<pid>.log
這個文件的內容他主要有如下內容
- 日志頭文件
- 導致 crash 的線程信息
- 所有線程信息
- 安全點和鎖信息
- 堆信息
- 本地代碼緩存
- 編譯事件
- gc 相關記錄
- jvm 內存映射
- jvm 啟動參數
- 服務器信息
拿到這個文件后,不用說了,慢慢啃吧。說到這里,我要摸着良心說。這個文件巨復雜,如果要會讀這個文件,請下點功夫。
③被操作系統OOM-Killer
Linux 內核有個機制叫OOM killer(Out-Of-Memory killer),該機制會監控那些占用內存過大,尤其是瞬間很快消耗大量內存的進程,為了防止內存耗盡而內核會把該進程殺掉。
因此,你發現java進程突然沒了,首先要懷疑是不是被linux的OOM killer給干掉了!
你可以去下面這個文件里翻
- 系統報錯日志:
/var/log/messages
你執行命令
egrep -i 'killed process' /var/log/messages
# egrep = grep -E 可以使用基本的正則表達外, 還可以用擴展表達式, -i代表忽略大小寫
#或者 grep “Out of memory” /var/log/messages
去日志里進行查詢。
當然,你也可以去內核日志里頭查詢。有時Linux系統或者系統上運行的java或者其它進程,會發生一些莫名其妙的問題,比如突然掛掉了,比如突然重啟等等。在軟件上找不到問題所在,此時我們應該懷疑硬件或者內核的問題,此時我們就可以使用 dmesg來查看:
dmesg -T| grep java #或者 dmesg -T | grep 'Out of memory' # -T 是顯示時間戳
再對比java日志停止時間,看來這里才是問題的根源,所以接下來從優化java內存占用、加內存入手嘗試解決問題吧!
備注:
dmesg命令是用來在Unix-like系統中顯示內核的相關信息的。dmesg全稱是display message (or display driver),即顯示信息。
實際上,dmesg命令是從內核環形緩沖區中獲取數據的。當我們在Linux上排除故障時,dmesg命令會十分方便,它能很好地幫我們鑒別硬件相關的error和warning。除此之外,dmesg命令還能打印出守護進程相關的信息,已幫助我們debug。