解Bug之路-記一次中間件導致的慢SQL排查過程 前言 最近發現線上出現一個奇葩的問題,這問題讓筆者定位了好長時間,期間排查問題的過程還是挺有意思的,正好博客也好久不更新了,就以此為素材寫出了本篇文章。 Bug現場 我們的分庫分表中間件在經過一年的沉淀之后,已經到了比較穩定的階段。而且經 ...
解Bug之路 記一次存儲故障的排查過程 高可用真是一絲細節都不得馬虎。平時跑的好好的系統,在相應硬件出現故障時就會引發出潛在的Bug。偏偏這些故障在應用層的表現稀奇古怪,很難讓人聯想到是硬件出了問題,特別是偶發性出現的問題更難排查。今天,筆者就給大家帶來一個存儲偶發性故障的排查過程。 Bug現場 我們的積分應用由於量非常大,所以需要進行分庫分表,所以接入了我們的中間件。一直穩定運行,但應用最近確經 ...
2020-10-14 10:44 12 1799 推薦指數:
解Bug之路-記一次中間件導致的慢SQL排查過程 前言 最近發現線上出現一個奇葩的問題,這問題讓筆者定位了好長時間,期間排查問題的過程還是挺有意思的,正好博客也好久不更新了,就以此為素材寫出了本篇文章。 Bug現場 我們的分庫分表中間件在經過一年的沉淀之后,已經到了比較穩定的階段。而且經 ...
上周晚上,某環境 ES 出現阻塞, 運行緩慢。於是開始排查問題的過程。 開始 思路:現象是阻塞,通常是 CPU 彪高,導致業務線程分配不到 CPU 時間片,或者內存吃緊,頻繁 GC 導致的 STW。 登錄到目標服務器,由於 ES 的用戶不是 LZ,因此找運維要了 root 權限,登錄到服務器 ...
公司對底層基礎庫進行了重構,線上穩定跑了幾天,在查看訂單系統的log時,有幾條error信息非常的奇怪, 訂單有狀態機進行維護 已經被撤消的訂單不能再進行有其他操作,和狀態更改。 已 ...
背景 近期被抓壯丁解決一個幾年前的系統故障,經過反復排查多次監控后終於成功解決,記錄分享一下心得吧! 故障描述 具體表現為在高峰訪問期間,IIS直接報服務器處理503。 系統部署 采用ARR實現的IIS Sever Farm進行負載均衡 ...
山竹來臨,窩在家里整理個人文檔。 本篇文章主要講解排查問題的思路,涉及linux 刪除文件的原理、實例誤刪數據恢復、MySQL實例初始化參數優先級別等,雖然涉及知識點比較淺,但是個人覺得挺有 ...
背景說明 組織架構被拆分為多個微服務 需求: 一個輸入框 查詢 前后模糊查詢 人員信息(工號、姓名),前后模糊查詢 單位名稱。 跨庫平級查詢!! ...
解Bug之路-記一次線上請求偶爾變慢的排查 前言 最近解決了個比較棘手的問題,由於排查過程挺有意思,於是就以此為素材寫出了本篇文章。 Bug現場 這是一個偶發的性能問題。在每天幾百萬比交易請求中,平均耗時大約為300ms,但總有那么100多筆會超過1s,讓我們業務耗時監控的99.99線變得 ...
解Bug之路-記一次調用外網服務概率性失敗問題的排查 前言 和外部聯調一直是令人困擾的問題,尤其是一些基礎環境配置導致的問題。筆者在一次偶然情況下解決了一個調用外網服務概率性失敗的問題。在此將排查過程發出來,希望讀者遇到此問題的時候,能夠知道如何入手。 起因 筆者的新系統上線,需要PE執行 ...