原文:記錄一次線上yarn RM頻繁切換的故障

周末一大早被報警驚醒,rm頻繁切換 急急忙忙排查看到兩處錯誤日志 錯誤信息 錯誤信息 查看源碼處FairScheduler 跟進去看下 第二處報錯是 修改方法二 ...

2019-12-21 15:13 0 728 推薦指數:

查看詳情

通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Sat Mar 30 00:34:00 CST 2019 0 1788
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
一次線上OOM故障排查經過

轉貼:http://my.oschina.net/flashsword/blog/205266 本文是一次線上OOM故障排查的經過,內容比較基礎但是真實,主要是記錄一下,沒有OOM排查經驗的同學也可以參考。 現象 我們之前有一個計算作業。最近經常出現不穩定,無法正常響應的情況。具體表現 ...

Thu Mar 06 21:05:00 CST 2014 0 2844
【JVM】記錄一次線上SWAP偏高告警的故障分析過程

近期遇到一個堆外內存導致swap飆高的問題,這類問題比較罕見,因此將整個排查過程記錄下來了 現象描述 最近1周線上服務器時不時出現swap報警(swap超過內存10%時觸發報警,內存是4G,因此swap超過400M會觸發報警),每次都是童鞋們通過重啟tomcat解決的;但導致的根本原因 ...

Wed May 15 22:20:00 CST 2019 0 725
[JVM]一次線上頻繁GC的問題解決

起因:周末測試發現線上mq消息積壓了十幾萬的消息,如下圖所示 每個隊列幾萬的消息,立即采取緊急措施,將隊列下線重新上線。 處理積壓消息的量,調用量起來了,很快消息積壓解決了。開始事件復盤。 首先分析是否是消息消費能力跟不上消息產生原因,看入口消息,QPS是29.6 消息消費 ...

Thu Mar 21 01:27:00 CST 2019 0 2130
一次線上FullGC問題記錄

​ 標題采自:英雄聯盟-瑞文:斷劍重鑄之日,騎士歸來之時! 斷劍 ​ 前兩天早上在擠地鐵的時候看到小組群里,主管發了好多消息,打開來一看,說是XX項目自從22號發版后,每天晚上就瘋狂Full GC ...

Fri Dec 07 19:40:00 CST 2018 3 854
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM