上周晚上,某環境 ES 出現阻塞, 運行緩慢。於是開始排查問題的過程。 開始 思路:現象是阻塞,通常是 CPU 彪高,導致業務線程分配不到 CPU 時間片,或者內存吃緊,頻繁 GC 導致的 STW。 登錄到目標服務器,由於 ES 的用戶不是 LZ,因此找運維要了 root 權限,登錄到服務器 ...
公司對底層基礎庫進行了重構,線上穩定跑了幾天,在查看訂單系統的log時,有幾條error信息非常的奇怪, 訂單有狀態機進行維護 已經被撤消的訂單不能再進行有其他操作,和狀態更改。 已經支付的訂單,不能被撤消,只能退款或者部分退款。 這兩條log雖然沒有太大問題,關鍵問題在於,正常情況下,這條log就不應該被執行,所有對訂單進行操作的接口,都會判斷訂單的狀態,如果訂單已經支付,撤消就會直接當做錯誤的 ...
2021-11-30 10:00 2 1723 推薦指數:
上周晚上,某環境 ES 出現阻塞, 運行緩慢。於是開始排查問題的過程。 開始 思路:現象是阻塞,通常是 CPU 彪高,導致業務線程分配不到 CPU 時間片,或者內存吃緊,頻繁 GC 導致的 STW。 登錄到目標服務器,由於 ES 的用戶不是 LZ,因此找運維要了 root 權限,登錄到服務器 ...
解Bug之路-記一次存儲故障的排查過程 高可用真是一絲細節都不得馬虎。平時跑的好好的系統,在相應硬件出現故障時就會引發出潛在的Bug。偏偏這些故障在應用層的表現稀奇古怪,很難讓人聯想到是硬件出了問題,特別是偶發性出現的問題更難排查。今天,筆者就給大家帶來一個存儲偶發性故障的排查過程。 Bug ...
解Bug之路-記一次中間件導致的慢SQL排查過程 前言 最近發現線上出現一個奇葩的問題,這問題讓筆者定位了好長時間,期間排查問題的過程還是挺有意思的,正好博客也好久不更新了,就以此為素材寫出了本篇文章。 Bug現場 我們的分庫分表中間件在經過一年的沉淀之后,已經到了比較穩定的階段。而且經 ...
問題發現場景 某天突然收到線上應用的gc時間過長的告警,剛開始只有一台機器偶爾報一下,后續其他機器也紛紛告警,具體告警的閾值是應用10分鍾內ygc的總時長達到了6.6s。 初步排除過程 按照gc問題常規排查流程,還是先保留現場,jmap -dump:format=b,file ...
山竹來臨,窩在家里整理個人文檔。 本篇文章主要講解排查問題的思路,涉及linux 刪除文件的原理、實例誤刪數據恢復、MySQL實例初始化參數優先級別等,雖然涉及知識點比較淺,但是個人覺得挺有 ...
1、事件還原 昨天下午,收到一個504的告警,顯然這是一個超時告警。當時由於手頭有其他事情,沒在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我寫的,第一反應有點詫異。 詫異之后,繼續處理手頭的工作。 一小時過后,又收到同樣的告警,顯然不是偶爾,肯定是哪兒出問題了,於是開始排查。 報警 ...
與鎖相關的源碼,但是如果我們能夠掌握基本的死鎖排查方法,對我們的日常開發還是大有裨益的。PS:本文不會介 ...
背景說明 組織架構被拆分為多個微服務 需求: 一個輸入框 查詢 前后模糊查詢 人員信息(工號、姓名),前后模糊查詢 單位名稱。 跨庫平級查詢!! ...