Linux服務器Java進程突然消失排查辦法


出處:JAVA進程突然消失的原因?

問題描述

在實際生產環境下,如果我們遇見Java進程突然消失,該如何去排查問題?

思路

可能有幾種原因:

①、Java應用程序的問題:發生OOM導致進程Crash

最常見的是發生堆內存異常“java.lang.OutOfMemoryError: Java heap space”,排查步驟如下:

  • Step1: 查看JVM參數 -XX:+HeapDumpOnOutOfMemoryError 和 -XX:HeapDumpPath=*/java.hprof;
  • Step2: 根據HeapDumpPath指定的路徑查看是否產生dump文件;
  • Step3: 若存在dump文件,使用Jhat、VisualVM等工具分析即可;

 

②、JVM出錯:JVM或JDK自身的Bug導致進程Crash

  當JVM發生致命錯誤導致崩潰時,會生成一個hs_err_pid_xxx.log這樣的文件,該文件包含了導致 JVM crash 的重要信息,我們可以通過分析該文件定位到導致 JVM Crash 的原因,從而修復保證系統穩定。
  默認情況下,該文件是生成在工作目錄下的,當然也可以通過 JVM 參數指定生成路徑:

-XX:ErrorFile=/var/log/hs_err_pid<pid>.log

這個文件的內容他主要有如下內容

  • 日志頭文件
  • 導致 crash 的線程信息
  • 所有線程信息
  • 安全點和鎖信息
  • 堆信息
  • 本地代碼緩存
  • 編譯事件
  • gc 相關記錄
  • jvm 內存映射
  • jvm 啟動參數
  • 服務器信息

拿到這個文件后,不用說了,慢慢啃吧。說到這里,我要摸着良心說。這個文件巨復雜,如果要會讀這個文件,請下點功夫。

 

③被操作系統OOM-Killer

  Linux 內核有個機制叫OOM killer(Out-Of-Memory killer),該機制會監控那些占用內存過大,尤其是瞬間很快消耗大量內存的進程,為了防止內存耗盡而內核會把該進程殺掉。
  因此,你發現java進程突然沒了,首先要懷疑是不是被linux的OOM killer給干掉了!
  你可以去下面這個文件里翻

    • 系統報錯日志:/var/log/messages

  你執行命令

egrep -i 'killed process' /var/log/messages 
# egrep = grep -E 可以使用基本的正則表達外, 還可以用擴展表達式,  -i代表忽略大小寫  
#或者
grep “Out of memory” /var/log/messages

去日志里進行查詢。
  當然,你也可以去內核日志里頭查詢。有時Linux系統或者系統上運行的java或者其它進程,會發生一些莫名其妙的問題,比如突然掛掉了,比如突然重啟等等。在軟件上找不到問題所在,此時我們應該懷疑硬件或者內核的問題,此時我們就可以使用 dmesg來查看:

dmesg -T| grep java
#或者
dmesg -T | grep 'Out of memory'
# -T 是顯示時間戳

 再對比java日志停止時間,看來這里才是問題的根源,所以接下來從優化java內存占用、加內存入手嘗試解決問題吧!

 

備注:

  dmesg命令是用來在Unix-like系統中顯示內核的相關信息的。dmesg全稱是display message (or display driver),即顯示信息。

  實際上,dmesg命令是從內核環形緩沖區中獲取數據的。當我們在Linux上排除故障時,dmesg命令會十分方便,它能很好地幫我們鑒別硬件相關的error和warning。除此之外,dmesg命令還能打印出守護進程相關的信息,已幫助我們debug。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM