一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...
一 發現問題 下面是線上機器的cpu使用率,可以看到從 月 日開始,隨着時間cpu使用率在逐步增高,最終使用率達到 導致線上服務不可用,后面重啟了機器后恢復。 二 排查思路 簡單分析下可能出問題的地方,分為 個方向: .系統本身代碼問題 .內部下游系統的問題導致的雪崩效應 .上游系統調用量突增 .http請求第三方的問題 .機器本身的問題 三 開始排查 .查看日志,沒有發現集中的錯誤日志,初步排除 ...
2019-03-29 16:34 0 1788 推薦指數:
一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...
轉貼:http://my.oschina.net/flashsword/blog/205266 本文是一次線上OOM故障排查的經過,內容比較基礎但是真實,主要是記錄一下,沒有OOM排查經驗的同學也可以參考。 現象 我們之前有一個計算作業。最近經常出現不穩定,無法正常響應的情況。具體表現 ...
近期遇到一個堆外內存導致swap飆高的問題,這類問題比較罕見,因此將整個排查過程記錄下來了 現象描述 最近1周線上服務器時不時出現swap報警(swap超過內存10%時觸發報警,內存是4G,因此swap超過400M會觸發報警),每次都是童鞋們通過重啟tomcat解決的;但導致的根本原因 ...
本文導讀: 生產故障場景介紹 TCP 建連三次握手過程 TCP 斷連四次揮手過程 結合 Java 堆棧剖析源碼 再從堆棧中找到"罪魁禍首" 問題優化方案總結 1、生產故障場景介紹 業務簡介: 該服務主要是提供對外的代理接口,大部分接口都會調用第三方接口 ...
問題出現:現網CPU飆高,Full GC告警 CGI 服務發布到現網后,現網機器出現了Full GC告警,同時CPU飆高99%。在優先恢復現網服務正常后,開始着手定位Full GC的問題。在現場只能夠抓到四個GC線程占用了很高的CPU,無法抓到引發Full GC的線程。查看了服務故障期間的錯誤 ...
來源 https://www.jianshu.com/p/271f88f06eb3 今天我司線上kafka消息代理出現錯誤日志,異常rebalance,而且平均間隔2到3分鍾就會rebalance一次,分析日志發現比較嚴重。錯誤日志 ...
sence:python中使用subprocess.Popen(cmd, stdout=sys.STDOUT, stderr=sys.STDERR, shell=True) ,stdout, s ...
周末一大早被報警驚醒,rm頻繁切換 急急忙忙排查 看到兩處錯誤日志 錯誤信息1 錯誤信息2 查看源碼處FairScheduler 跟進去看下 ...