原文:記一次mq無法正常生產消息的事故排查過程

早上上班后得知,服務費未同步到代理商系統。查看draft server系統生產環境的log,顯示在往RabbitMQ推數據時出現異常:no route to host。 打開vpn連接到生產環境,用本地test程序嘗試往生產的mq推數據,發現正常。接下來,rpc調用生產的服務費推送服務,再看生產log,mq依然有問題。不過這次是SocketTimeoutException。 繼續分析log,奇怪 ...

2019-08-02 16:07 0 507 推薦指數:

查看詳情

Kafka 異步消息也會阻塞?一次 Dubbo 頻繁超時排查過程

線上某服務 A 調用服務 B 接口完成一次交易,一次晚上的生產變更之后,系統監控發現服務 B 接口頻繁超時,后續甚至返回線程池耗盡錯誤 Thread pool is EXHAUSTED。因為服務 B 依賴外部接口,剛開始誤以為外部接口延時導致,所以臨時增加服務 B dubbo 線程池線程數量 ...

Wed Oct 09 04:32:00 CST 2019 6 2697
MySQL-一次備份失敗的排查過程

山竹來臨,窩在家里整理個人文檔。 本篇文章主要講解排查問題的思路,涉及linux 刪除文件的原理、實例誤刪數據恢復、MySQL實例初始化參數優先級別等,雖然涉及知識點比較淺,但是個人覺得挺有 ...

Thu Sep 20 17:48:00 CST 2018 0 2438
一次慢sql問題排查過程

背景說明   組織架構被拆分為多個微服務 需求: 一個輸入框 查詢 前后模糊查詢 人員信息(工號、姓名),前后模糊查詢 單位名稱。 跨庫平級查詢!! ...

Tue Dec 21 00:56:00 CST 2021 0 1023
一次生產kafka消息消費的事故

事故背景:   我們公司與合作方公司有個消息同步的需求,合作方是消息生產者,我們是消息消費者,他們通過kafka給我們推送消息,我們實時接收,然后進行后續業務處理。昨天上午,發現他們推送過來的廣場門店信息我們都沒有消費,導致我們系統和他們系統數據不一致,從而導致無法提單,無法出報表(報表有誤 ...

Wed Jun 12 18:07:00 CST 2019 0 571
一次OOM問題排查過程

上周運維反饋線上程序出現了OOM,程序日志中的輸出為 看線程名稱應該是tomcat的nio工作線程,線程在處理程序的時候因為無法在堆中分配更多內存出現了OOM,幸好JVM啟動參數配置了-XX:+HeapDumpOnOutOfMemoryError,使用MAT打開拿到的hprof文件進行分析 ...

Thu May 02 04:05:00 CST 2019 0 3052
一次Xmrig挖礦木馬排查過程

問題現象 Linux 服務器收到報警信息,主機 CPU 跑滿。 自動創建運行 Docker 容器 xmrig, 導致其他運行中容器被迫停止。 問題原因 通過 top 命令可以看到有一個 ...

Thu Jun 27 00:27:00 CST 2019 0 1750
一次線上內存泄漏問題的排查過程

近期需要對公司的接口做線上的巡查監控,需要寫一個腳本放到服務器上,定時運行腳本監測線上接口是否正常。測試的接口不是HTTP協議,而是公司基於TCP協議開發的私有協議,因此不能直接用現成的一些接口測試工具,需要自己寫代碼來調用接口。由於是私有協議,為了方便各業務項目進行通信,開發部門統一提供了一個 ...

Mon Jul 08 22:31:00 CST 2019 0 637
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM