消息隊列常見問題和解決方案


說明:此文是筆者對中華石衫老師對消息隊列講解的一篇總結包括筆者自己的一些理解

一、為什么使用消息隊列?

消息隊列使用的場景和中間件有很多,但解決的核心問題主要是:異步、解耦、消峰填谷。

二、消息隊列的優缺點

異步、解耦、消峰填谷這是消息隊列最大的優點,除了這些消息隊列還可以會解決一些我們特殊業務場景的問題。但是缺點主要在於系統的可用性、復雜性、一致性問題,引入消息隊列后,需要考慮MQ的可用性,萬一MQ崩潰了豈不是要爆炸?而且復雜性明顯提高了,需要考慮一些消息隊列的常見問題和解決方案,還有就是一致性問題,一條消息由多個消費者消費,萬一有一個消費者消費失敗了,就會導致數據不一致。

三、消息隊列選型

目前常見和使用廣泛的MQ有ActiveMQ、RabbitMQ、RocketMQ、Kakfa,其特性如下:
  mq對比
  個人總結:
  ActiveMQ早期用的比較多,但是現在貌似用的都不是很多了,網上也沒有大規模吞吐量的使用案例分析,社區也貌似不是很活躍了,如果是新項目不建議采用ActiveMQ。

RabbitMQ現在使用的較為多一些,社區活躍度也很高,功能也很強大,官方還提供了管理的web界面,性能也很好,但是RabbitMQ性能好的主要原因是因為使用erlang語言開發的,erlang語言貌似天生性能好,但對於我們java開發者來說,源碼基本看不懂,更別提深入的研究了,不過spring推出了rabbit的支持,貌似還比較好用,比自己去封裝實現並且去處理一些問題的要好多了。

RocketMQ現在開始用的人也比較多,很多人對於RocketMQ的看法是集成了Kafka和RabbitMQ的有點,是阿里開源的產品,貌似現在是捐贈給了Apache,其源碼是java寫的,功能十分強大並且是經過阿里大規模應用的,能經過阿里實踐使用的一般來說可靠性和可用性都是相當高的,但是也存在一些小問題,現在RocketMQ雖然使用的人好像越來越多了,但是文檔資料還是比較少,含金量不怎么高,並且阿里開源的有不維護的風險,就像dubbo中間也用2年沒維護,有實力的團隊應該沒有什么問題,小公司小團隊需要考慮一下使用RocketMQ。

Kafka就不多說了,Kafka可以說是業內標准,基本上大數據領域的實時計算、日志、數據處理都是用kafka,開源社區異常活躍,而且像現在阿里雲、騰訊雲都推出了Kafka的雲服務,所以說Kafka就不說了,絕對沒問題,放心大膽的用吧。

最后給一個個人選型意見(不一定對啊),如果是小公司小團隊最好采用Kafka和RabbitMQ,有實力的團隊可以去搞一搞RocketMQ。

四、如何保證消息隊列的高可用性

由於筆者只使用和實踐過RabbitMQ和Kafka,RocketMQ和ActiveMQ了解的不深,所以分析一下RabbitMQ和Kafka的高可用。

(一)RabbitMQ

RabbitMQ有三種模式:單機模式,普通集群模式,鏡像集群模式

(1)單機模式

單機模式平常使用在開發或者本地測試場景,一般就是測試是不是能夠正確的處理消息,生產上基本沒人去用單機模式,風險很大。

(2)普通集群模式

普通集群模式就是啟動多個RabbitMQ實例。在你創建的queue,只會放在一個rabbtimq實例上,但是每個實例都同步queue的元數據。在消費的時候完了,上如果連接到了另外一個實例,那么那個實例會從queue所在實例上拉取數據過來。

這種方式確實很麻煩,也不怎么好,沒做到所謂的分布式,就是個普通集群。因為這導致你要么消費者每次隨機連接一個實例然后拉取數據,要么固定連接那個queue所在實例消費數據,前者有數據拉取的開銷,后者導致單實例性能瓶頸。

而且如果那個放queue的實例宕機了,會導致接下來其他實例就無法從那個實例拉取,如果你開啟了消息持久化,讓RabbitMQ落地存儲消息的話,消息不一定會丟,得等這個實例恢復了,然后才可以繼續從這個queue拉取數據。

這方案主要是提高吞吐量的,就是說讓集群中多個節點來服務某個queue的讀寫操作。

(3)鏡像集群模式

鏡像集群模式是所謂的RabbitMQ的高可用模式,跟普通集群模式不一樣的是,你創建的queue,無論元數據還是queue里的消息都會存在於多個實例上,然后每次你寫消息到queue的時候,都會自動把消息到多個實例的queue里進行消息同步。

優點在於你任何一個實例宕機了,沒事兒,別的實例都可以用。缺點在於性能開銷太大和擴展性很低,同步所有實例,這會導致網絡帶寬和壓力很重,而且擴展性很低,每增加一個實例都會去包含已有的queue的所有數據,並沒有辦法線性擴展queue。

開啟鏡像集群模式可以去RabbitMQ的管理控制台去增加一個策略,指定要求數據同步到所有節點的,也可以要求就同步到指定數量的節點,然后你再次創建queue的時候,應用這個策略,就會自動將數據同步到其他的節點上去了。

(二)Kafka

Kafka天生就是一個分布式的消息隊列,它可以由多個broker組成,每個broker是一個節點;你創建一個topic,這個topic可以划分為多個partition,每個partition可以存在於不同的broker上,每個partition就放一部分數據。

kafka 0.8以前,是沒有HA機制的,就是任何一個broker宕機了,那個broker上的partition就廢了,沒法寫也沒法讀,沒有什么高可用性可言。

kafka 0.8以后,提供了HA機制,就是replica副本機制。kafka會均勻的將一個partition的所有replica分布在不同的機器上,來提高容錯性。每個partition的數據都會同步到吉他機器上,形成自己的多個replica副本。然后所有replica會選舉一個leader出來,那么生產和消費都去leader,其他replica就是follower,leader會同步數據給follower。當leader掛了會自動去找replica,然后會再選舉一個leader出來,這樣就具有高可用性了。

寫數據的時候,生產者就寫leader,然后leader將數據落地寫本地磁盤,接着其他follower自己主動從leader來pull數據。一旦所有follower同步好數據了,就會發送ack給leader,leader收到所有follower的ack之后,就會返回寫成功的消息給生產者。(當然,這只是其中一種模式,還可以適當調整這個行為)

消費的時候,只會從leader去讀,但是只有一個消息已經被所有follower都同步成功返回ack的時候,這個消息才會被消費者讀到。

五、如何保證消息消費時的冪等性

其實消息重復消費的主要原因在於回饋機制(RabbitMQ是ack,Kafka是offset),在某些場景中我們采用的回饋機制不同,原因也不同,例如消費者消費完消息后回復ack, 但是剛消費完還沒來得及提交系統就重啟了,這時候上來就pull消息的時候由於沒有提交ack或者offset,消費的還是上條消息。

那么如何怎么來保證消息消費的冪等性呢?實際上我們只要保證多條相同的數據過來的時候只處理一條或者說多條處理和處理一條造成的結果相同即可,但是具體怎么做要根據業務需求來定,例如入庫消息,先查一下消息是否已經入庫啊或者說搞個唯一約束啊什么的,還有一些是天生保證冪等性就根本不用去管,例如redis就是天然冪等性。

還有一個問題,消費者消費消息的時候在某些場景下要放過消費不了的消息,遇到消費不了的消息通過日志記錄一下或者搞個什么措施以后再來處理,但是一定要放過消息,因為在某些場景下例如spring-rabbitmq的默認回饋策略是出現異常就沒有提交ack,導致了一直在重發那條消費異常的消息,而且一直還消費不了,這就尷尬了,后果你會懂的。

六、如何保證消息的可靠性傳輸?

由於筆者只使用和實踐過RabbitMQ和Kafka,RocketMQ和ActiveMQ了解的不深,所以分析一下RabbitMQ和Kafka的消息可靠性傳輸的問題。、

(一)RabbitMQ

(1)生產者弄丟了數據
  生產者將數據發送到RabbitMQ的時候,可能數據就在半路給搞丟了,因為網絡啥的問題,都有可能。此時可以選擇用RabbitMQ提供的事務功能,就是生產者發送數據之前開啟RabbitMQ事務(channel.txSelect),然后發送消息,如果消息沒有成功被RabbitMQ接收到,那么生產者會收到異常報錯,此時就可以回滾事務(channel.txRollback),然后重試發送消息;如果收到了消息,那么可以提交事務(channel.txCommit)。但是問題是,RabbitMQ事務機制一搞,基本上吞吐量會下來,因為太耗性能。

所以一般來說,如果你要確保說寫RabbitMQ的消息別丟,可以開啟confirm模式,在生產者那里設置開啟confirm模式之后,你每次寫的消息都會分配一個唯一的id,然后如果寫入了RabbitMQ中,RabbitMQ會給你回傳一個ack消息,告訴你說這個消息ok了。如果RabbitMQ沒能處理這個消息,會回調你一個nack接口,告訴你這個消息接收失敗,你可以重試。而且你可以結合這個機制自己在內存里維護每個消息id的狀態,如果超過一定時間還沒接收到這個消息的回調,那么你可以重發。

事務機制和cnofirm機制最大的不同在於,事務機制是同步的,你提交一個事務之后會阻塞在那兒,但是confirm機制是異步的,你發送個消息之后就可以發送下一個消息,然后那個消息RabbitMQ接收了之后會異步回調你一個接口通知你這個消息接收到了。

所以一般在生產者這塊避免數據丟失,都是用confirm機制的。

(2)RabbitMQ弄丟了數據

就是RabbitMQ自己弄丟了數據,這個你必須開啟RabbitMQ的持久化,就是消息寫入之后會持久化到磁盤,哪怕是RabbitMQ自己掛了,恢復之后會自動讀取之前存儲的數據,一般數據不會丟。除非極其罕見的是,RabbitMQ還沒持久化,自己就掛了,可能導致少量數據會丟失的,但是這個概率較小。

設置持久化有兩個步驟,第一個是創建queue的時候將其設置為持久化的,這樣就可以保證RabbitMQ持久化queue的元數據,但是不會持久化queue里的數據;第二個是發送消息的時候將消息的deliveryMode設置為2,就是將消息設置為持久化的,此時RabbitMQ就會將消息持久化到磁盤上去。必須要同時設置這兩個持久化才行,RabbitMQ哪怕是掛了,再次重啟,也會從磁盤上重啟恢復queue,恢復這個queue里的數據。

而且持久化可以跟生產者那邊的confirm機制配合起來,只有消息被持久化到磁盤之后,才會通知生產者ack了,所以哪怕是在持久化到磁盤之前,RabbitMQ掛了,數據丟了,生產者收不到ack,你也是可以自己重發的。

哪怕是你給RabbitMQ開啟了持久化機制,也有一種可能,就是這個消息寫到了RabbitMQ中,但是還沒來得及持久化到磁盤上,結果不巧,此時RabbitMQ掛了,就會導致內存里的一點點數據會丟失。

(3)消費端弄丟了數據

RabbitMQ如果丟失了數據,主要是因為你消費的時候,剛消費到,還沒處理,結果進程掛了,比如重啟了,那么就尷尬了,RabbitMQ認為你都消費了,這數據就丟了。

這個時候得用RabbitMQ提供的ack機制,簡單來說,就是你關閉RabbitMQ自動ack,可以通過一個api來調用就行,然后每次你自己代碼里確保處理完的時候,再程序里ack一把。這樣的話,如果你還沒處理完,不就沒有ack?那RabbitMQ就認為你還沒處理完,這個時候RabbitMQ會把這個消費分配給別的consumer去處理,消息是不會丟的。

(二)Kafka

(1)消費端弄丟了數據

唯一可能導致消費者弄丟數據的情況,就是說,你那個消費到了這個消息,然后消費者那邊自動提交了offset,讓kafka以為你已經消費好了這個消息,其實你剛准備處理這個消息,你還沒處理,你自己就掛了,此時這條消息就丟咯。

大家都知道kafka會自動提交offset,那么只要關閉自動提交offset,在處理完之后自己手動提交offset,就可以保證數據不會丟。但是此時確實還是會重復消費,比如你剛處理完,還沒提交offset,結果自己掛了,此時肯定會重復消費一次,自己保證冪等性就好了。

生產環境碰到的一個問題,就是說我們的kafka消費者消費到了數據之后是寫到一個內存的queue里先緩沖一下,結果有的時候,你剛把消息寫入內存queue,然后消費者會自動提交offset。

然后此時我們重啟了系統,就會導致內存queue里還沒來得及處理的數據就丟失了

(2)kafka弄丟了數據

這塊比較常見的一個場景,就是kafka某個broker宕機,然后重新選舉partiton的leader時。大家想想,要是此時其他的follower剛好還有些數據沒有同步,結果此時leader掛了,然后選舉某個follower成leader之后,他不就少了一些數據?這就丟了一些數據啊。

生產環境也遇到過,我們也是,之前kafka的leader機器宕機了,將follower切換為leader之后,就會發現說這個數據就丟了。

所以此時一般是要求起碼設置如下4個參數:

  • 給這個topic設置replication.factor參數:這個值必須大於1,要求每個partition必須有至少2個副本。
  • 在kafka服務端設置min.insync.replicas參數:這個值必須大於1,這個是要求一個leader至少感知到有至少一個follower還跟自己保持聯系,沒掉隊,這樣才能確保leader掛了還有一個follower吧。
  • 在producer端設置acks=all:這個是要求每條數據,必須是寫入所有replica之后,才能認為是寫成功了。
  • 在producer端設置retries=MAX(很大很大很大的一個值,無限次重試的意思):這個是要求一旦寫入失敗,就無限重試,卡在這里了。

(3)生產者會不會弄丟數據

如果按照上述的思路設置了ack=all,一定不會丟,要求是,你的leader接收到消息,所有的follower都同步到了消息之后,才認為本次寫成功了。如果沒滿足這個條件,生產者會自動不斷的重試,重試無限次。

六、如何保證消息的順序性

因為在某些情況下我們扔進MQ中的消息是要嚴格保證順序的,尤其涉及到訂單什么的業務需求,消費的時候也是要嚴格保證順序,不然會出大問題的。

先看看順序會錯亂的倆場景

  1. rabbitmq:一個queue,多個consumer,這不明顯亂了
  2. kafka:一個topic,一個partition,一個consumer,內部多線程,這不也明顯亂了
      如何來保證消息的順序性呢?
  3. rabbitmq:拆分多個queue,每個queue一個consumer,就是多一些queue而已,確實是麻煩點;或者就一個queue但是對應一個consumer,然后這個consumer內部用內存隊列做排隊,然后分發給底層不同的worker來處理。
  4. kafka:一個topic,一個partition,一個consumer,內部單線程消費,寫N個內存queue,然后N個線程分別消費一個內存queue即可。

七、如何解決消息隊列的延時以及過期失效問題?消息隊列滿了以后該怎么處理?有幾百萬消息持續積壓幾小時怎么解決?

(一)、大量消息在mq里積壓了幾個小時了還沒解決

幾千萬條數據在MQ里積壓了七八個小時,從下午4點多,積壓到了晚上很晚,10點多,11點多
這個是我們真實遇到過的一個場景,確實是線上故障了,這個時候要不然就是修復consumer的問題,讓他恢復消費速度,然后傻傻的等待幾個小時消費完畢。這個肯定不能在面試的時候說吧。

一個消費者一秒是1000條,一秒3個消費者是3000條,一分鍾是18萬條,1000多萬條,所以如果你積壓了幾百萬到上千萬的數據,即使消費者恢復了,也需要大概1小時的時間才能恢復過來。

一般這個時候,只能操作臨時緊急擴容了,具體操作步驟和思路如下:

  1. 先修復consumer的問題,確保其恢復消費速度,然后將現有cnosumer都停掉。
  2. 新建一個topic,partition是原來的10倍,臨時建立好原先10倍或者20倍的queue數量。
  3. 然后寫一個臨時的分發數據的consumer程序,這個程序部署上去消費積壓的數據,消費之后不做耗時的處理,直接均勻輪詢寫入臨時建立好的10倍數量的queue。
  4. 接着臨時征用10倍的機器來部署consumer,每一批consumer消費一個臨時queue的數據。
  5. 這種做法相當於是臨時將queue資源和consumer資源擴大10倍,以正常的10倍速度來消費數據。
  6. 等快速消費完積壓數據之后,得恢復原先部署架構,重新用原先的consumer機器來消費消息。

(二)、消息隊列過期失效問題

假設你用的是rabbitmq,rabbitmq是可以設置過期時間的,就是TTL,如果消息在queue中積壓超過一定的時間就會被rabbitmq給清理掉,這個數據就沒了。那這就是第二個坑了。這就不是說數據會大量積壓在mq里,而是大量的數據會直接搞丟。

這個情況下,就不是說要增加consumer消費積壓的消息,因為實際上沒啥積壓,而是丟了大量的消息。我們可以采取一個方案,就是批量重導,這個我們之前線上也有類似的場景干過。就是大量積壓的時候,我們當時就直接丟棄數據了,然后等過了高峰期以后,比如大家一起喝咖啡熬夜到晚上12點以后,用戶都睡覺了。

這個時候我們就開始寫程序,將丟失的那批數據,寫個臨時程序,一點一點的查出來,然后重新灌入mq里面去,把白天丟的數據給他補回來。也只能是這樣了。

假設1萬個訂單積壓在mq里面,沒有處理,其中1000個訂單都丟了,你只能手動寫程序把那1000個訂單給查出來,手動發到mq里去再補一次。

(三)、消息隊列滿了怎么搞?

如果走的方式是消息積壓在mq里,那么如果你很長時間都沒處理掉,此時導致mq都快寫滿了,咋辦?這個還有別的辦法嗎?沒有,誰讓你第一個方案執行的太慢了,你臨時寫程序,接入數據來消費,消費一個丟棄一個,都不要了,快速消費掉所有的消息。然后走第二個方案,到了晚上再補數據吧。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM