.net Kafka.Client多個Consumer Group對Topic消費不能完全覆蓋研究總結(一)


我們知道Kafka支持Consumer Group的功能,但是最近在應用Consumer Group時發現了一個Topic 的Partition不能100%覆蓋的問題。

程序部署后,發現Kafka在pdb組的consumer消費topic時存在問題,consumer無法完全覆蓋Topic的各個partition。如下圖:

image

無論我在開啟多少個consumer實例,最高覆蓋只能達到66%。

進一步跟蹤發現,pdb組的consumer覆蓋到partition1和partion2.

image

在kafka的主消費組defaultGroup中的consumer,覆蓋partition0

image

根據以上現象猜測,當有多個消費者組對topic進行消費時,存在partition的競爭機制在里面。

為驗證partion是否存在競爭,關掉測試程序,default group中的consumer覆蓋恢復100%。

如下圖。

image

翻閱官方文檔,有提到

1、同一個partition不支持comsumer並發。

2、不同gourp組中的consumer,可以對同一個topic進行消費。

同時在spark的kafka插件中,對同一topic的消費者,不同組都可以達到100%的覆蓋率。

在本地做測試,同樣存在該問題。

不同組的消費者對同一個topic進行消費時,兩個消費者都達不到100%覆蓋率(每個組的消費者總有一些數據消費不到)。

在中文社區翻閱所有的消費者和連接以及流的配置項,暫未發現影響該問題的配置項(http://orchome.com/kafka/index kafka中文社區地址。)。

關於該問題的研究暫時沒有結論,暫未確定是配置不合適或kafka.Client 存在問題,后續會持續跟蹤該問題。

通過該次問題的研究,對kafka消費組、消費者、連接流、partion和consumer映射關系、parttion 分配策略有了較為深入的了解,唯一遺憾的是未找到關於該問題的官方解釋和相關說明。

附,Kafka-Partion和consumer重新Rebalance算法如下:  

  • 將目標Topic下的所有Partirtion排序,存於PT
  • 對某Consumer Group下所有Consumer排序,存於CG,第i個Consumer記為Ci
  • N=size(PT)/size(CG),向上取整
  • 解除Ci對原來分配的Partition的消費權(i從0開始)
  • 將第i∗N到(i+1)∗N−1個Partition分配給Ci

  目前,最新版(0.8.2.1)Kafka的Consumer Rebalance的控制策略是由每一個Consumer通過在Zookeeper上注冊Watch完成的。每個Consumer被創建時會觸發Consumer Group的Rebalance,具體啟動流程如下:

  • High Level Consumer啟動時將其ID注冊到其Consumer Group下,在Zookeeper上的路徑為/consumers/[consumer group]/ids/[consumer id]
  • 在/consumers/[consumer group]/ids上注冊Watch
  • 在/brokers/ids上注冊Watch
  • 如果Consumer通過Topic Filter創建消息流,則它會同時在/brokers/topics上也創建Watch
  • 強制自己在其Consumer Group內啟動Rebalance流程

  在這種策略下,每一個Consumer或者Broker的增加或者減少都會觸發Consumer Rebalance。因為每個Consumer只負責調整自己所消費的Partition,為了保證整個Consumer Group的一致性,當一個Consumer觸發了Rebalance時,該Consumer Group內的其它所有其它Consumer也應該同時觸發Rebalance。

若有新發現隨時交流,謝謝大家。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM