消息積壓---一般處理方法


如何解決消息隊列的延時以及過期失效問題?消息隊列滿了以后該怎么處理?

思考

  1. 是什么導致了消息積壓?是consumer程序bug?是consumer消費的速度落后於消息生產的速度?
  2. 積壓了多長時間,積壓了多少量?
  3. 對業務的影響?

解決思路

1. 如果僅僅是consumer消費的速度落后於消息生產的速度的話,可以考慮采用擴容消費者群組的方式。
2. 如果積壓比較嚴重,積壓了上百萬、上千萬的消息。
  1. 修復現有consumer的問題,並將其停掉。
  2. 重新創建一個容量更大的topic,比如patition是原來的10倍。
  3. 編寫一個臨時consumer程序,消費原來積壓的隊列。該consumer不做任何耗時的操作,將消息均勻寫入新創建的隊列里。
  4. 將修復好的consumer部署到原來10倍的機器上消費新隊列。
  5. 消息積壓解決后,恢復原有架構。
3. 如果消息已經丟失

由於有的消息隊列有過期失效的機制,造成了大量的消息丟失。
這種情況只能將丟失的那批數據,寫個臨時程序,一點一點的查出來,然后重新灌入mq里面去。 


 
 

大量消息在mq里積壓了幾個小時了還沒解決  

  幾千萬條數據在MQ里積壓了七八個小時,最簡單的方法可以讓他恢復消費速度,然后等待幾個小時消費完畢。 

  一個消費者一秒是1000條,一秒3個消費者是3000條,一分鍾是18萬條,1000多萬條 ,所以如果你積壓了幾百萬到上千萬的數據,即使消費者恢復了,也需要大概1小時的時間才能恢復過來  

  一般這個時候,只能操作臨時緊急擴容了,具體操作步驟和思路如下:  

    先修復consumer的問題,確保其恢復消費速度,然后將現有cnosumer都停掉

    新建一個topic,partition是原來的10倍,臨時建立好原先10倍或者20倍的queue數量

    然后寫一個臨時的分發數據的consumer程序,這個程序部署上去消費積壓的數據,消費之后不做耗時的處理,直接均勻輪詢寫入臨時建立好的10倍數量的queue

    接着臨時征用10倍的機器來部署consumer,每一批consumer消費一個臨時queue的數據

    這種做法相當於是臨時將queue資源和consumer資源擴大10倍,以正常的10倍速度來消費數據

    等快速消費完積壓數據之后,得恢復原先部署架構,重新用原先的consumer機器來消費消息

topic ---- kafka
數據庫 ---- ES
 
 
參考:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM