消費端出了問題,導致消息隊列消息積壓了很多或者集群的磁盤都快寫滿了。
解決思路有兩個:
1、MQ動態擴容,將MQ容量增大,讓其能容納更多的消息
2、消費端加大消費能力,迅速處理掉積壓。
第一個例子:
如果你積壓了幾百萬到上千萬的數據,即使消費者恢復了,也需要大概1小時的時間才能恢復過來
一般這個時候,只能操作臨時緊急擴容了,具體操作步驟和思路如下:
1)先修復consumer的問題,確保其恢復消費速度,然后將現有cnosumer都停掉
2)新建一個topic,partition是原來的10倍,臨時建立好原先10倍或者20倍的queue數量
3)然后寫一個臨時的分發數據的consumer程序,這個程序部署上去消費積壓的數據,消費之后不做耗時的處理,直接均勻輪詢寫入臨時建立好的10倍數量的queue
4)接着臨時征用10倍的機器來部署consumer,每一批consumer消費一個臨時queue的數據
5)這種做法相當於是臨時將queue資源和consumer資源擴大10倍,以正常的10倍速度來消費數據
6)等快速消費完積壓數據之后,得恢復原先部署架構,重新用原先的consumer機器來消費消息
第二個例子:
由於長期積壓,導致消息的過期時間快到了。不過生產環境一般很少會設置 消息過期。
rabbitmq是可以設置過期時間的,就是TTL,如果消息在queue中積壓超過一定的時間就會被rabbitmq給清理掉,這個數據就沒了。
這時可以讓這批數據先過期,后面再去補。
等過了高峰期以后,將丟失的那批數據,寫個臨時程序,一點一點的查出來,然后重新灌入mq里面去,把白天丟的數據給他補回來。也只能是這樣了。