原文:【JVM】記錄一次線上SWAP偏高告警的故障分析過程

近期遇到一個堆外內存導致swap飆高的問題,這類問題比較罕見,因此將整個排查過程記錄下來了 現象描述 最近 周線上服務器時不時出現swap報警 swap超過內存 時觸發報警,內存是 G,因此swap超過 M會觸發報警 ,每次都是童鞋們通過重啟tomcat解決的 但導致的根本原因是什么呢 必須找到根本原因才行,總是這么重啟就有點low了 問題排查 於是找了 台占用了swap但還未觸發報警的服務器進行 ...

2019-05-15 14:20 0 725 推薦指數:

查看詳情

一次由於fastjson引用包沖突引發的故障分析

1,現象,從頁面訪問某個url的時候,從后端的catalina.out里面沒有找到相應的錯誤,頁面只是顯示500錯誤 2,在開發者模式中,看response里面的返回,返回如下 HTTP Stat ...

Wed Aug 26 11:18:00 CST 2020 2 1409
一次NAS故障分析(ZFS NFS)

問題: 使用vdbench進行單層100w目錄,每個目錄30個文件,共3000w文件讀寫時,在創建文件得時候IO會出現斷斷續續得情況。 分析過程: 1、 nfs抓包分析 使用vdbench創建一個文件得流程eg: vdb_f0398.file ...

Fri Mar 11 18:33:00 CST 2022 0 903
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Sat Mar 30 00:34:00 CST 2019 0 1788
記錄一次線上yarn RM頻繁切換的故障

周末一大早被報警驚醒,rm頻繁切換 急急忙忙排查 看到兩處錯誤日志 錯誤信息1 錯誤信息2 查看源碼處FairScheduler 跟進去看下 ...

Sat Dec 21 23:13:00 CST 2019 0 728
記錄一次zabbix郵件告警搭建過程和問題處理

(不是一天寫成blog,有截圖上的時間差) 流程: 1.配置zabbix-server服務端mailx,並在zabbix-server.conf配置文件的腳本路徑中添加郵件腳本; 2.配置web界面選項的動作,報警媒介類型, 3.在用戶中添加告警媒介,設置類型,收件人等選項 ...

Mon Mar 30 19:59:00 CST 2020 0 1410
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM