原文:一次線上OOM故障排查經過

轉貼:http: my.oschina.net flashsword blog 本文是一次線上OOM故障排查的經過,內容比較基礎但是真實,主要是記錄一下,沒有OOM排查經驗的同學也可以參考。 現象 我們之前有一個計算作業。最近經常出現不穩定,無法正常響應的情況。具體表現是:各種連接超時,從mysql mongodb和zookeeper到netty,能超時的都超時過了。其他看不到太多有效的異常。 所 ...

2014-03-06 13:05 0 2844 推薦指數:

查看詳情

一次線上OOM過程的排查

可用。於是我們對服務器上的狀況進行了排查。 二.排查問題的過程 在這次的問題排查主要是圍繞JVM的內存使用情況,生 ...

Thu Nov 08 22:34:00 CST 2018 0 1460
一次 android 線上 oom 問題

背景 公司的主打產品是一款跨平台的 App,我的部門負責為它提供底層的 sdk 用於數據傳輸,我負責的是 Adnroid 端的 sdk 開發。 sdk 並不直接加載在 App 主進程,而是隔離在一 ...

Mon Nov 29 17:54:00 CST 2021 1 297
一次線上 OOM 和性能優化

大家好,我是鴨血粉絲(大家會親切的喊我 「阿粉」),是一位喜歡吃鴨血粉絲的程序員,回想起之前線上出現 OOM 的場景,畢竟當時是第一次遇到這么 緊臟 的大事,要好好記錄下來。 1 事情回顧 在某次周五,通過 Grafana 監控,發現線上環境突然出現CPU和內存飆升的情況: 但是看到網絡 ...

Thu Jan 02 05:44:00 CST 2020 1 973
OOM】記一次線上OOM解決全流程

一、OOM背景   疫情期間,大家都開始了遠程辦公。剛開始不適應,最后感覺還挺好的,不用每天擠地鐵,住8平米的出租屋。   忽然有一天,系統報警郵件來了,運維也在群里艾特我,系統OOM了。其實寫Java的同學如果自己負責的系統出現了OOM,是很尷尬的事情。   畢竟也是骨灰級玩家了,不慌不忙 ...

Mon Feb 24 21:03:00 CST 2020 1 1271
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Sat Mar 30 00:34:00 CST 2019 0 1788
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM