原文:一次故障排查過程

上周晚上,某環境 ES 出現阻塞, 運行緩慢。於是開始排查問題的過程。 開始 思路:現象是阻塞,通常是 CPU 彪高,導致業務線程分配不到 CPU 時間片,或者內存吃緊,頻繁 GC 導致的 STW。 登錄到目標服務器,由於 ES 的用戶不是 LZ,因此找運維要了 root 權限,登錄到服務器。sudo i 切到 root,使用 ps ef grep Elasticsearch 找到該用戶,然后 s ...

2019-01-25 12:50 2 969 推薦指數:

查看詳情

一次奇怪的的bug排查過程

公司對底層基礎庫進行了重構,線上穩定跑了幾天,在查看訂單系統的log時,有幾條error信息非常的奇怪, 訂單有狀態機進行維護 已經被撤消的訂單不能再進行有其他操作,和狀態更改。 已 ...

Tue Nov 30 18:00:00 CST 2021 2 1723
解Bug之路-記一次存儲故障排查過程

解Bug之路-記一次存儲故障排查過程 高可用真是一絲細節都不得馬虎。平時跑的好好的系統,在相應硬件出現故障時就會引發出潛在的Bug。偏偏這些故障在應用層的表現稀奇古怪,很難讓人聯想到是硬件出了問題,特別是偶發性出現的問題更難排查。今天,筆者就給大家帶來一個存儲偶發性故障排查過程。 Bug ...

Wed Oct 14 18:44:00 CST 2020 12 1799
服務器故障排查三板斧:記一次IIS報503/502錯誤故障排查過程

背景   近期被抓壯丁解決一個幾年前的系統故障,經過反復排查多次監控后終於成功解決,記錄分享一下心得吧! 故障描述   具體表現為在高峰訪問期間,IIS直接報服務器處理503。 系統部署 采用ARR實現的IIS Sever Farm進行負載均衡 ...

Tue Feb 21 04:11:00 CST 2017 0 4501
一次ygc越來越慢的問題排查過程

問題發現場景 某天突然收到線上應用的gc時間過長的告警,剛開始只有一台機器偶爾報一下,后續其他機器也紛紛告警,具體告警的閾值是應用10分鍾內ygc的總時長達到了6.6s。 初步排除過程 按照gc問題常規排查流程,還是先保留現場,jmap -dump:format=b,file ...

Mon Mar 11 18:03:00 CST 2019 4 1516
MySQL-記一次備份失敗的排查過程

山竹來臨,窩在家里整理個人文檔。 本篇文章主要講解排查問題的思路,涉及linux 刪除文件的原理、實例誤刪數據恢復、MySQL實例初始化參數優先級別等,雖然涉及知識點比較淺,但是個人覺得挺有 ...

Thu Sep 20 17:48:00 CST 2018 0 2438
一次線上接口超時的排查過程

1、事件還原 昨天下午,收到一個504的告警,顯然這是一個超時告警。當時由於手頭有其他事情,沒在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我寫的,第一反應有點詫異。 詫異之后,繼續處理手頭的工作。 一小時過后,又收到同樣的告警,顯然不是偶爾,肯定是哪兒出問題了,於是開始排查。 報警 ...

Sun Sep 29 08:17:00 CST 2019 2 1588
記錄一次Mysql死鎖排查過程

與鎖相關的源碼,但是如果我們能夠掌握基本的死鎖排查方法,對我們的日常開發還是大有裨益的。PS:本文不會介 ...

Mon Feb 20 22:30:00 CST 2017 0 3701
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM