如何解決消息隊列的延時以及過期失效問題?消息隊列滿了以后該怎么處理?
思考
- 是什么導致了消息積壓?是consumer程序bug?是consumer消費的速度落后於消息生產的速度?
- 積壓了多長時間,積壓了多少量?
- 對業務的影響?
解決思路
1. 如果僅僅是consumer消費的速度落后於消息生產的速度的話,可以考慮采用擴容消費者群組的方式。
2. 如果積壓比較嚴重,積壓了上百萬、上千萬的消息。
- 修復現有consumer的問題,並將其停掉。
- 重新創建一個容量更大的topic,比如patition是原來的10倍。
- 編寫一個臨時consumer程序,消費原來積壓的隊列。該consumer不做任何耗時的操作,將消息均勻寫入新創建的隊列里。
- 將修復好的consumer部署到原來10倍的機器上消費新隊列。
- 消息積壓解決后,恢復原有架構。
3. 如果消息已經丟失
由於有的消息隊列有過期失效的機制,造成了大量的消息丟失。
這種情況只能將丟失的那批數據,寫個臨時程序,一點一點的查出來,然后重新灌入mq里面去。

大量消息在mq里積壓了幾個小時了還沒解決
幾千萬條數據在MQ里積壓了七八個小時,最簡單的方法可以讓他恢復消費速度,然后等待幾個小時消費完畢。
一個消費者一秒是1000條,一秒3個消費者是3000條,一分鍾是18萬條,1000多萬條 ,所以如果你積壓了幾百萬到上千萬的數據,即使消費者恢復了,也需要大概1小時的時間才能恢復過來
一般這個時候,只能操作臨時緊急擴容了,具體操作步驟和思路如下:
先修復consumer的問題,確保其恢復消費速度,然后將現有cnosumer都停掉
新建一個topic,partition是原來的10倍,臨時建立好原先10倍或者20倍的queue數量
然后寫一個臨時的分發數據的consumer程序,這個程序部署上去消費積壓的數據,消費之后不做耗時的處理,直接均勻輪詢寫入臨時建立好的10倍數量的queue
接着臨時征用10倍的機器來部署consumer,每一批consumer消費一個臨時queue的數據
這種做法相當於是臨時將queue資源和consumer資源擴大10倍,以正常的10倍速度來消費數據
等快速消費完積壓數據之后,得恢復原先部署架構,重新用原先的consumer機器來消費消息
topic ---- kafka
數據庫 ---- ES
參考: