【文章推薦】通過jstack與jmap分析一次線上故障

原文：通過jstack與jmap分析一次線上故障

一發現問題下面是線上機器的cpu使用率，可以看到從月日開始，隨着時間cpu使用率在逐步增高，最終使用率達到導致線上服務不可用，后面重啟了機器后恢復。二排查思路簡單分析下可能出問題的地方，分為個方向： .系統本身代碼問題 .內部下游系統的問題導致的雪崩效應 .上游系統調用量突增 .http請求第三方的問題 .機器本身的問題三開始排查 .查看日志，沒有發現集中的錯誤日志，初步排除 ...

2019-03-29 16:34 0 1788 推薦指數：

查看詳情

通過jstack與jmap分析一次線上故障

一、發現問題下面是線上機器的cpu使用率，可以看到從4月8日開始，隨着時間cpu使用率在逐步增高，最終使用率達到100%導致線上服務不可用，后面重啟了機器后恢復。二、排查思路簡單分析下可能出問題的地方，分為5個方向： 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

一次線上OOM故障排查經過

轉貼：http://my.oschina.net/flashsword/blog/205266 本文是一次線上OOM故障排查的經過，內容比較基礎但是真實，主要是記錄一下，沒有OOM排查經驗的同學也可以參考。現象我們之前有一個計算作業。最近經常出現不穩定，無法正常響應的情況。具體表現 ...

【JVM】記錄一次線上SWAP偏高告警的故障分析過程

近期遇到一個堆外內存導致swap飆高的問題，這類問題比較罕見，因此將整個排查過程記錄下來了現象描述最近1周線上服務器時不時出現swap報警（swap超過內存10%時觸發報警，內存是4G，因此swap超過400M會觸發報警），每次都是童鞋們通過重啟tomcat解決的；但導致的根本原因 ...

由一次線上故障來理解下 TCP 三握、四揮 & Java 堆棧分析到源碼的探秘

本文導讀：生產故障場景介紹 TCP 建連三次握手過程 TCP 斷連四次揮手過程結合 Java 堆棧剖析源碼再從堆棧中找到"罪魁禍首" 問題優化方案總結 1、生產故障場景介紹業務簡介：該服務主要是提供對外的代理接口，大部分接口都會調用第三方接口 ...

從一次線上故障思考Java問題定位思路

問題出現：現網CPU飆高，Full GC告警 CGI 服務發布到現網后，現網機器出現了Full GC告警，同時CPU飆高99%。在優先恢復現網服務正常后，開始着手定位Full GC的問題。在現場只能夠抓到四個GC線程占用了很高的CPU，無法抓到引發Full GC的線程。查看了服務故障期間的錯誤 ...

記一次線上kafka一直rebalance故障

來源 https://www.jianshu.com/p/271f88f06eb3 今天我司線上kafka消息代理出現錯誤日志，異常rebalance，而且平均間隔2到3分鍾就會rebalance一次，分析日志發現比較嚴重。錯誤日志 ...

記錄一次因subprocess PIPE 引起的線上故障

sence：python中使用subprocess.Popen(cmd, stdout=sys.STDOUT, stderr=sys.STDERR, shell=True) ，stdout, s ...

記錄一次線上yarn RM頻繁切換的故障

周末一大早被報警驚醒，rm頻繁切換急急忙忙排查看到兩處錯誤日志錯誤信息1 錯誤信息2 查看源碼處FairScheduler 跟進去看下 ...

原文：通過jstack與jmap分析一次線上故障

相關推薦

相關標簽