原文:一次kibana服務失敗的排查過程

公司在kubernetes集群上穩定運行數月的kibana服務於昨天下午突然無法正常提供服務,訪問kibana地址后提示如下信息: 排查過程: 看到提示后,第一反應肯定是檢查elasticsearch集群,碰巧昨天下午公司VPN奇慢,頻繁連接不上亦庄機房,因此問題排查一度集中在elasticsearch服務上,另一方面也是因為kibana服務由docker鏡像提供,只讀服務本身是沒有狀態變化的,在 ...

2016-11-17 14:25 0 1976 推薦指數:

查看詳情

MySQL-記一次備份失敗排查過程

山竹來臨,窩在家里整理個人文檔。 本篇文章主要講解排查問題的思路,涉及linux 刪除文件的原理、實例誤刪數據恢復、MySQL實例初始化參數優先級別等,雖然涉及知識點比較淺,但是個人覺得挺有 ...

Thu Sep 20 17:48:00 CST 2018 0 2438
一次故障排查過程

上周晚上,某環境 ES 出現阻塞, 運行緩慢。於是開始排查問題的過程。 開始 思路:現象是阻塞,通常是 CPU 彪高,導致業務線程分配不到 CPU 時間片,或者內存吃緊,頻繁 GC 導致的 STW。 登錄到目標服務器,由於 ES 的用戶不是 LZ,因此找運維要了 root 權限,登錄到服務 ...

Fri Jan 25 20:50:00 CST 2019 2 969
一次奇怪的的bug排查過程

公司對底層基礎庫進行了重構,線上穩定跑了幾天,在查看訂單系統的log時,有幾條error信息非常的奇怪, 訂單有狀態機進行維護 已經被撤消的訂單不能再進行有其他操作,和狀態更改。 已 ...

Tue Nov 30 18:00:00 CST 2021 2 1723
一次.Net Core程序啟動失敗排查過程

閱文時長 | 2分鍾 字數統計 | 3212字符 主要內容 | 1、引言&背景 2、排查.NetCore啟動失敗詳細過程 3、聲明與參考資料 『記一次.Net Core程序啟動失敗排查過程 ...

Wed Jan 19 04:11:00 CST 2022 0 1758
記錄一次服務器內存耗盡排查過程使用到的命令

公司報表分析系統已經運行了一年多,最近收到服務器內存警告信息內存耗盡,第一時間着手排查問題,記錄下排查內存耗盡問題整個過程使用到的命令。 第一步查看內存使用情況: free -m 命令:已M單位顯示服務器實際內存使用情況,如圖: 第1行mem數據:total內存總數 ...

Fri Feb 02 07:29:00 CST 2018 0 2412
Linux(2)---記錄一次線上服務 CPU 100%的排查過程

Linux(2)---記錄一次線上服務 CPU 100%的排查過程 當時產生CPU飆升接近100%的原因是因為項目中的websocket時時斷開又重連導致CPU飆升接近100% 。如何排查的呢 是通過日志輸出錯誤信息: 得知websocket時時重新 連接的信息,然后找到原因 解決 ...

Fri Nov 23 05:52:00 CST 2018 0 1521
一次ygc越來越慢的問題排查過程

問題發現場景 某天突然收到線上應用的gc時間過長的告警,剛開始只有一台機器偶爾報一下,后續其他機器也紛紛告警,具體告警的閾值是應用10分鍾內ygc的總時長達到了6.6s。 初步排除過程 按照gc問題常規排查流程,還是先保留現場,jmap -dump:format=b,file ...

Mon Mar 11 18:03:00 CST 2019 4 1516
一次線上接口超時的排查過程

1、事件還原 昨天下午,收到一個504的告警,顯然這是一個超時告警。當時由於手頭有其他事情,沒在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我寫的,第一反應有點詫異。 詫異之后,繼續處理手頭的工作。 一小時過后,又收到同樣的告警,顯然不是偶爾,肯定是哪兒出問題了,於是開始排查。 報警 ...

Sun Sep 29 08:17:00 CST 2019 2 1588
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM