原文:通過jstack與jmap分析一次線上故障

一 發現問題 下面是線上機器的cpu使用率,可以看到從 月 日開始,隨着時間cpu使用率在逐步增高,最終使用率達到 導致線上服務不可用,后面重啟了機器后恢復。 二 排查思路 簡單分析下可能出問題的地方,分為 個方向: .系統本身代碼問題 .內部下游系統的問題導致的雪崩效應 .上游系統調用量突增 .http請求第三方的問題 .機器本身的問題 三 開始排查 .查看日志,沒有發現集中的錯誤日志,初步排除 ...

2019-03-29 16:34 0 1788 推薦指數:

查看詳情

通過jstackjmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
一次線上OOM故障排查經過

轉貼:http://my.oschina.net/flashsword/blog/205266 本文是一次線上OOM故障排查的經過,內容比較基礎但是真實,主要是記錄一下,沒有OOM排查經驗的同學也可以參考。 現象 我們之前有一個計算作業。最近經常出現不穩定,無法正常響應的情況。具體表現 ...

Thu Mar 06 21:05:00 CST 2014 0 2844
【JVM】記錄一次線上SWAP偏高告警的故障分析過程

近期遇到一個堆外內存導致swap飆高的問題,這類問題比較罕見,因此將整個排查過程記錄下來了 現象描述 最近1周線上服務器時不時出現swap報警(swap超過內存10%時觸發報警,內存是4G,因此swap超過400M會觸發報警),每次都是童鞋們通過重啟tomcat解決的;但導致的根本原因 ...

Wed May 15 22:20:00 CST 2019 0 725
一次線上故障來理解下 TCP 三握、四揮 & Java 堆棧分析到源碼的探秘

本文導讀: 生產故障場景介紹 TCP 建連三握手過程 TCP 斷連四揮手過程 結合 Java 堆棧剖析源碼 再從堆棧中找到"罪魁禍首" 問題優化方案總結 1、生產故障場景介紹 業務簡介: 該服務主要是提供對外的代理接口,大部分接口都會調用第三方接口 ...

Sat Oct 19 23:44:00 CST 2019 2 685
一次線上故障思考Java問題定位思路

問題出現:現網CPU飆高,Full GC告警 CGI 服務發布到現網后,現網機器出現了Full GC告警,同時CPU飆高99%。在優先恢復現網服務正常后,開始着手定位Full GC的問題。在現場只能夠抓到四個GC線程占用了很高的CPU,無法抓到引發Full GC的線程。查看了服務故障期間的錯誤 ...

Sat Sep 15 01:26:00 CST 2018 2 1493
一次線上kafka一直rebalance故障

來源 https://www.jianshu.com/p/271f88f06eb3 今天我司線上kafka消息代理出現錯誤日志,異常rebalance,而且平均間隔2到3分鍾就會rebalance一次分析日志發現比較嚴重。錯誤日志 ...

Mon Mar 02 04:10:00 CST 2020 0 1334
記錄一次線上yarn RM頻繁切換的故障

周末一大早被報警驚醒,rm頻繁切換 急急忙忙排查 看到兩處錯誤日志 錯誤信息1 錯誤信息2 查看源碼處FairScheduler 跟進去看下 ...

Sat Dec 21 23:13:00 CST 2019 0 728
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM