前言 前幾日早上打開郵箱收到一封監控報警郵件:某某 ip 服務器 CPU 負載較高,請研發盡快排查解決,發送時間正好是凌晨。 其實早在去年我也處理過類似的問題,並記錄下來:《一次生產 CPU 100% 排查優化實踐》 不過本次問題產生的原因卻和上次不太一樣,大家可以接着往下看。 問題 ...
前言 到了年底果然都不太平,最近又收到了運維報警:表示有些服務器負載非常高,讓我們定位問題。 還真是想什么來什么,前些天還故意把某些服務器的負載提高 沒錯,老板讓我寫個 BUG ,不過還好是不同的環境互相沒有影響。 定位問題 拿到問題后首先去服務器上看了看,發現運行的只有我們的 Java 應用。於是先用 ps 命令拿到了應用的 PID。 接着使用 top Hp pid 將這個進程的線程顯示出來。 ...
2018-12-17 08:25 14 4039 推薦指數:
前言 前幾日早上打開郵箱收到一封監控報警郵件:某某 ip 服務器 CPU 負載較高,請研發盡快排查解決,發送時間正好是凌晨。 其實早在去年我也處理過類似的問題,並記錄下來:《一次生產 CPU 100% 排查優化實踐》 不過本次問題產生的原因卻和上次不太一樣,大家可以接着往下看。 問題 ...
今天早上,運維同學發現生產某個服務 CPU 持續飆高,於是開始進行排查: 1、首先使用 top 命令,查看 CPU 占用高的進程,得到進程 ID 2、根據上一步找到的進程ID,ps -ef | grep [進程ID] 找到對應程序 3、進入程序對應docker容器 ...
有整整 10 天木有更文了,這段時間確實比較忙。 有加我微信的朋友知道我上周末出去春游了,部門組織去了趟外伶仃島,環境挺不錯的,這段時間去的人也比較少,值得去玩。 今天講講上周末一次生產問題的復盤。 1 事情經過 周日中午從外伶仃島回來就直奔公司,因為生產出了些問題。問題是 ...
今晚我們的其中一個產品的其中一個比較偏的環境出現了一次生產事故, 前端所有請求都發送失敗。 我是中途被通知出了事故的,這事甚至驚動了一些領導。 期間有懷疑是我做的前端改動導致的問題。 最終排查,發現是ngix的配置錯誤導致的,通過修改配置修復了問題。 事情雖然結束過去 ...
今天寫了一段垃圾代碼,然后上服務器上運行,cpu瞬間飆到了100%,現記錄一下問題排除過程~ 1. 問題代碼 2. top 3. 查找問題 3.1 top -Hp 18571, 找出最耗cpu的線程,結果發現18584是就耗了99.9 ...
一次線上CPU高的問題排查實踐 前言 近期某一天上班一開電腦,就收到了運維警報,有兩台服務CPU負載很高,同時收到一線同事反饋 系統訪問速度非常慢,幾乎無響應。 一個美好的早晨,最怕什么就來什么。只好推掉其他會議,專心搞定問題。 排查 登錄系統一看,后端的接口訪問果然全部超時 ...
問題: dubbo線程池耗盡,活躍線程數超過線程池最大線程數(dubbo默認線程池最大線程數為200) 登錄服務提供者所在服務器 通過命令行連接dubbo: 查看 ...