
報錯的日志信息:
the consumer's subscription not exist
找到源碼里報錯的位置
org.apache.rocketmq.broker.processor.PullMessageProcessor#processRequest:
1 subscriptionData = consumerGroupInfo.findSubscriptionData(requestHeader.getTopic()); 2 if (null == subscriptionData) { 3 log.warn("the consumer's subscription not exist, group: {}, topic:{}", requestHeader.getConsumerGroup(), requestHeader.getTopic());
1 response.setCode(ResponseCode.SUBSCRIPTION_NOT_EXIST); 2 response.setRemark("the consumer's subscription not exist" + FAQUrl.suggestTodo(FAQUrl.SAME_GROUP_DIFFERENT_TOPIC)); 3 return response; 4 }
此處源碼是將該 Topic 的訂閱信息找出來,然而這里卻沒找到,所以報了消費訂閱不存在的錯誤。
朋友還跟我講了他的消費集群中,每個消費者訂閱了自己的 Topic,他的消費組中 有 c1 和 c2 消費者,c1 訂閱了 topicA,而 c2 訂閱了 topicB。
這時我已經知道什么原因了,我先說一下消費者的訂閱信息在 broker 中是以 group 來分組的,數據結構如下
org.apache.rocketmq.broker.client.ConsumerManager:
1 private final ConcurrentMap<String/* Group */, ConsumerGroupInfo> consumerTable = 2 new ConcurrentHashMap<String, ConsumerGroupInfo>(1024);
這意味着集群中的每個消費者在向 broker 注冊訂閱信息的時候相互覆蓋掉對方的訂閱信息了,這也是為什么同一個消費組應該擁有完全一樣的訂閱關系的原因,而朋友在同一個消費組的每個消費者訂閱關系都不一樣,就出現了訂閱信息相互覆蓋的問題。
可是朋友這時又有疑惑了,他覺得每個消費者訂閱自己的主題,貌似沒問題啊,邏輯上也行的通,他不明白為什么 RocketMQ 不允許這樣做,於是秉承着老司機的職業素養,下面我會從源碼的角度深度分析 RocketMQ 消費訂閱注冊,消息拉取,消息隊列負載與重新分布機制 ,讓大家徹底弄清 RocketMQ 消費訂閱機制
消費者訂閱信息注冊
消費者在啟動時會向所有 broker 注冊訂閱信息,並啟動心跳機制,定時更新訂閱信息,每個消費者都有一個 MQClientInstance,消費者啟動時會啟動這個類,啟動方法中會啟動一些列定時任務,其中:
org.apache.rocketmq.client.impl.factory.MQClientInstance#startScheduledTask:
1 this.scheduledExecutorService.scheduleAtFixedRate(new Runnable() { 2 @Override 3 public void run() { 4 try { 5 MQClientInstance.this.cleanOfflineBroker(); 6 MQClientInstance.this.sendHeartbeatToAllBrokerWithLock(); 7 } catch (Exception e) { 8 log.error("ScheduledTask sendHeartbeatToAllBroker exception", e); 9 } 10 } 11 }, 1000, this.clientConfig.getHeartbeatBrokerInterval(), TimeUnit.MILLISECONDS);
上面是向集群內所有 broker 發送訂閱心跳信息的定時任務,源碼繼續跟進去,發現會給集群中的每個 broker 都發送自己的 HeartbeatData,HeartbeatData 即是每個客戶端的心跳數據,它包含了如下數據:
1 // 客戶端ID 2 private String clientID; 3 // 生產者信息 4 private Set<ProducerData> producerDataSet = new HashSet<ProducerData>(); 5 // 消費者信息 6 private Set<ConsumerData> consumerDataSet = new HashSet<ConsumerData>();
其中消費者信息包含了客戶端訂閱的主題信息。
我們繼續看看 broker 如何處理 HeartbeatData 數據,客戶端發送 HeartbeatData 時的請求類型為 HEART_BEAT,我們直接找到 broker 處理 HEART_BEAT 請求類型的邏輯:
org.apache.rocketmq.broker.processor.ClientManageProcessor#heartBeat:
1 public RemotingCommand heartBeat(ChannelHandlerContext ctx, RemotingCommand request) { 2 RemotingCommand response = RemotingCommand.createResponseCommand(null); 3 // 解碼,獲取 HeartbeatData 4 HeartbeatData heartbeatData = HeartbeatData.decode(request.getBody(), HeartbeatData.class); 5 ClientChannelInfo clientChannelInfo = new ClientChannelInfo( 6 ctx.channel(), 7 heartbeatData.getClientID(), 8 request.getLanguage(), 9 request.getVersion() 10 ); 11 12 // 循環注冊消費者訂閱信息 13 for (ConsumerData data : heartbeatData.getConsumerDataSet()) { 14 // 按消費組獲取訂閱配置信息 15 SubscriptionGroupConfig subscriptionGroupConfig = 16 this.brokerController.getSubscriptionGroupManager().findSubscriptionGroupConfig( 17 data.getGroupName()); 18 boolean isNotifyConsumerIdsChangedEnable = true; 19 if (null != subscriptionGroupConfig) { 20 isNotifyConsumerIdsChangedEnable = subscriptionGroupConfig.isNotifyConsumerIdsChangedEnable(); 21 int topicSysFlag = 0; 22 if (data.isUnitMode()) { 23 topicSysFlag = TopicSysFlag.buildSysFlag(false, true); 24 } 25 String newTopic = MixAll.getRetryTopic(data.getGroupName()); 26 this.brokerController.getTopicConfigManager().createTopicInSendMessageBackMethod( 27 newTopic, 28 subscriptionGroupConfig.getRetryQueueNums(), 29 PermName.PERM_WRITE | PermName.PERM_READ, topicSysFlag); 30 } 31 32 // 注冊消費者訂閱信息 33 boolean changed = this.brokerController.getConsumerManager().registerConsumer( 34 data.getGroupName(), 35 clientChannelInfo, 36 data.getConsumeType(), 37 data.getMessageModel(), 38 data.getConsumeFromWhere(), 39 data.getSubscriptionDataSet(), 40 isNotifyConsumerIdsChangedEnable 41 ); 42 // ... 43 response.setCode(ResponseCode.SUCCESS); 44 response.setRemark(null); 45 return response; 46 }
在這里我們可以看到,broker 收到 HEART_BEAT 請求后,將請求數據解壓獲取 HeartbeatData,根據 HeartbeatData 里面的消費訂閱信息,循環進行注冊:
org.apache.rocketmq.broker.client.ConsumerManager#registerConsumer:
1 public boolean registerConsumer(final String group, final ClientChannelInfo clientChannelInfo, 2 ConsumeType consumeType, MessageModel messageModel, ConsumeFromWhere consumeFromWhere, 3 final Set<SubscriptionData> subList, boolean isNotifyConsumerIdsChangedEnable) { 4 5 // 獲取消費組內的消費者信息 6 ConsumerGroupInfo consumerGroupInfo = this.consumerTable.get(group); 7 // 如果消費組的消費者信息為空,則新建一個 8 if (null == consumerGroupInfo) { 9 ConsumerGroupInfo tmp = new ConsumerGroupInfo(group, consumeType, messageModel, consumeFromWhere); 10 ConsumerGroupInfo prev = this.consumerTable.putIfAbsent(group, tmp); 11 consumerGroupInfo = prev != null ? prev : tmp; 12 } 13 14 boolean r1 = 15 consumerGroupInfo.updateChannel(clientChannelInfo, consumeType, messageModel, 16 consumeFromWhere); 17 // 更新訂閱信息,訂閱信息是按照消費組存放的,因此這步驟就會導致同一個消費組內的各個消費者客戶端的訂閱信息相互被覆蓋 18 boolean r2 = consumerGroupInfo.updateSubscription(subList); 19 20 if (r1 || r2) { 21 if (isNotifyConsumerIdsChangedEnable) { 22 this.consumerIdsChangeListener.handle(ConsumerGroupEvent.CHANGE, group, consumerGroupInfo.getAllChannel()); 23 } 24 } 25 26 this.consumerIdsChangeListener.handle(ConsumerGroupEvent.REGISTER, group, subList); 27 28 return r1 || r2; 29 }
這步驟是 broker 更新消費者訂閱信息的核心方法,如果消費組的消費者信息 ConsumerGroupInfo 為空,則新建一個,從名字可知道,訂閱信息是按照消費組進行存放的,因此在更新訂閱信息時,訂閱信息是按照消費組存放的,這步驟就會導致同一個消費組內的各個消費者客戶端的訂閱信息相互被覆蓋。
消息拉取
在 MQClientInstance 啟動時,會啟動一條線程來處理消息拉取任務:
org.apache.rocketmq.client.impl.factory.MQClientInstance#start:
1 // Start pull service 2 this.pullMessageService.start();
pullMessageService 繼承了 ServiceThread,而 ServiceThread 實現了 Runnable 接口,它的 run 方法實現如下:
org.apache.rocketmq.client.impl.consumer.PullMessageService#run:
1 @Override 2 public void run() { 3 while (!this.isStopped()) { 4 try { 5 // 從 pullRequestQueue 中獲取拉取消息請求對象 6 PullRequest pullRequest = this.pullRequestQueue.take(); 7 // 執行消息拉取 8 this.pullMessage(pullRequest); 9 } catch (InterruptedException ignored) { 10 } catch (Exception e) { 11 log.error("Pull Message Service Run Method exception", e); 12 } 13 } 14 }
消費端拿到 PullRequest 對象進行拉取消息,pullRequestQueue 是一個阻塞隊列,如果 pullRequest 數據為空,執行 take() 方法會一直阻塞,直到有新的 pullRequest 拉取任務進來,這里是一個很關鍵的步驟,你可能會想,pullRequest 什么時候被創建然后放入 pullRequestQueue?pullRequest 它是在 RebalanceImpl 中創建,它是 RocketMQ 消息隊列負載與重新分布機制的實現。
消息隊列負載與重新分布
從上面消息拉取源碼分析可知,pullMessageService 啟動時由於 pullRequestQueue 中沒有 pullRequest 對象,會一直阻塞,而在 MQClientInstance 啟動時,同樣會啟動一條線程來處理消息隊列負載與重新分布任務:
org.apache.rocketmq.client.impl.factory.MQClientInstance#start:
1 // Start rebalance service 2 this.rebalanceService.start();
rebalanceService 同樣繼承了 ServiceThread,它的 run 方法如下:
1 @Override 2 public void run() { 3 while (!this.isStopped()) { 4 this.waitForRunning(waitInterval); 5 this.mqClientFactory.doRebalance(); 6 } 7 }
繼續跟進去:
org.apache.rocketmq.client.impl.consumer.RebalanceImpl#doRebalance:
1 public void doRebalance(final boolean isOrder) { 2 // 獲取消費者所有訂閱信息 3 Map<String, SubscriptionData> subTable = this.getSubscriptionInner(); 4 if (subTable != null) { 5 for (final Map.Entry<String, SubscriptionData> entry : subTable.entrySet()) { 6 final String topic = entry.getKey(); 7 try { 8 // 消息隊列負載與重新分布 9 this.rebalanceByTopic(topic, isOrder); 10 } catch (Throwable e) { 11 if (!topic.startsWith(MixAll.RETRY_GROUP_TOPIC_PREFIX)) { 12 log.warn("rebalanceByTopic Exception", e); 13 } 14 } 15 } 16 } 17 this.truncateMessageQueueNotMyTopic(); 18 }
這里主要是獲取客戶端訂閱的主題,並根據主題進行消息隊列負載與重新分布,subTable 存儲了消費者的訂閱信息,消費者進行消息訂閱時會填充到里面,我們接着往下:
org.apache.rocketmq.client.impl.consumer.RebalanceImpl#rebalanceByTopic:
1 這里主要是獲取客戶端訂閱的主題,並根據主題進行消息隊列負載與重新分布,subTable 存儲了消費者的訂閱信息,消費者進行消息訂閱時會填充到里面,我們接着往下: 2 3 org.apache.rocketmq.client.impl.consumer.RebalanceImpl#rebalanceByTopic:
rebalanceByTopic 方法是實現 Consumer 端負載均衡的核心,我們這里以集群模式的消息隊列負載與重新分布,首先從 topicSubscribeInfoTable 中獲取訂閱主題的隊列信息,接着隨機從集群中的一個 broker 中獲取消費組內某個 topic 的訂閱客戶端 ID 列表,這里需要注意的是,為什么從集群內任意一個 broker 就可以獲取訂閱客戶端信息呢?前面的分析也說了,消費者客戶端啟動時會啟動一個線程,向所有 broker 發送心跳包。
org.apache.rocketmq.client.impl.consumer.RebalanceImpl#rebalanceByTopic:
1 // 如果 主題訂閱信息mqSet和主題訂閱客戶端不為空,就執行消息隊列負載與重新分布 2 if (mqSet != null && cidAll != null) { 3 List<MessageQueue> mqAll = new ArrayList<MessageQueue>(); 4 mqAll.addAll(mqSet); 5 6 // 排序,確保每個消息隊列只分配一個消費者 7 Collections.sort(mqAll); 8 Collections.sort(cidAll); 9 10 // 消息隊列分配算法 11 AllocateMessageQueueStrategy strategy = this.allocateMessageQueueStrategy; 12 13 // 執行算法,並得到隊列重新分配后的結果對象allocateResult 14 List<MessageQueue> allocateResult = null; 15 try { 16 allocateResult = strategy.allocate( 17 this.consumerGroup, 18 this.mQClientFactory.getClientId(), 19 mqAll, 20 cidAll); 21 } catch (Throwable e) { 22 log.error("AllocateMessageQueueStrategy.allocate Exception. allocateMessageQueueStrategyName={}", strategy.getName(), 23 e); 24 return; 25 } 26 // ... 27 }
以上是消息負載均衡的核心邏輯,RocketMQ 本身提供了 5 種負載算法,默認使用 AllocateMessageQueueAveragely 平均分配算法,它分配算法特點如下:
假設有消費組 g1,有消費者 c1 和 c2,c1 訂閱了 topicA,c2 訂閱了 topicB,集群內有 broker1 和broker2,假設 topicA 有 8 個消息隊列,broker_a(q0/q1/q2/q3) 和 broker_b(q0/q1/q2/q3),前面我們知道 findConsumerIdList 方法會獲取消費組內所有消費者客戶端 ID,topicA 經過平均分配算法進行分配之后的消費情況如下:
c1:broker_a(q0/q1/q2/q3)
c2:broker_b(q0/q1/q2/q3)
問題就出現在這里,c2 根本沒有訂閱 topicA,但根據分配算法,卻要加上 c2 進行分配,這樣就會導致這種情況有一半的消息被分配到 c2 進行消費,被分配到 c2 的消息隊列會延遲十幾秒甚至更久才會被消費,topicB 同理。
下面我用圖表示 topicA 和 topicB 經過 rebalance 之后的消費情況:
至於為什么會報 the consumer's subscription not exist,我們繼續往下擼:
org.apache.rocketmq.client.impl.consumer.RebalanceImpl#rebalanceByTopic:
1 if (mqSet != null && cidAll != null) { 2 // ... 3 Set<MessageQueue> allocateResultSet = new HashSet<MessageQueue>(); 4 if (allocateResult != null) { 5 allocateResultSet.addAll(allocateResult); 6 } 7 // 用戶重新分配后的結果allocateResult來更新當前消費者負載的消息隊列緩存表processQueueTable,並生成 pullRequestList 放入 pullRequestQueue 阻塞隊列中 8 boolean changed = this.updateProcessQueueTableInRebalance(topic, allocateResultSet, isOrder); 9 if (changed) { 10 log.info( 11 "rebalanced result changed. allocateMessageQueueStrategyName={}, group={}, topic={}, clientId={}, mqAllSize={}, cidAllSize={}, rebalanceResultSize={}, rebalanceResultSet={}", 12 strategy.getName(), consumerGroup, topic, this.mQClientFactory.getClientId(), mqSet.size(), cidAll.size(), 13 allocateResultSet.size(), allocateResultSet); 14 this.messageQueueChanged(topic, mqSet, allocateResultSet); 15 } 16 }
以上代碼邏輯主要是拿 mqSet 和 cidAll 進行消息隊列負載與重新分布,得到結果 allocateResult,它是一個 MessageQueue 列表,接着用 allocateResult 更新消費者負載的消息隊列緩存表 processQueueTable,生成 pullRequestList 放入 pullRequestQueue 阻塞隊列中:
org.apache.rocketmq.client.impl.consumer.RebalanceImpl#updateProcessQueueTableInRebalance:
1 List<PullRequest> pullRequestList = new ArrayList<PullRequest>(); 2 // 循環執行,將mqSet訂閱數據封裝成PullRequest對象,並添加到pullRequestList中 3 for (MessageQueue mq : mqSet) { 4 // 如果緩存列表不存在該訂閱信息,說明這次消息隊列重新分配后新增加的消息隊列 5 if (!this.processQueueTable.containsKey(mq)) { 6 if (isOrder && !this.lock(mq)) { 7 log.warn("doRebalance, {}, add a new mq failed, {}, because lock failed", consumerGroup, mq); 8 continue; 9 } 10 this.removeDirtyOffset(mq); 11 ProcessQueue pq = new ProcessQueue(); 12 long nextOffset = this.computePullFromWhere(mq); 13 if (nextOffset >= 0) { 14 ProcessQueue pre = this.processQueueTable.putIfAbsent(mq, pq); 15 if (pre != null) { 16 log.info("doRebalance, {}, mq already exists, {}", consumerGroup, mq); 17 } else { 18 log.info("doRebalance, {}, add a new mq, {}", consumerGroup, mq); 19 PullRequest pullRequest = new PullRequest(); 20 pullRequest.setConsumerGroup(consumerGroup); 21 pullRequest.setNextOffset(nextOffset); 22 pullRequest.setMessageQueue(mq); 23 pullRequest.setProcessQueue(pq); 24 pullRequestList.add(pullRequest); 25 changed = true; 26 } 27 } else { 28 log.warn("doRebalance, {}, add new mq failed, {}", consumerGroup, mq); 29 } 30 } 31 } 32 // 將pullRequestList添加到PullMessageService中的pullRequestQueue阻塞隊列中,以喚醒PullMessageService線程執行消息拉取 33 this.dispatchPullRequest(pullRequestList);
前面我們講到消息拉取是從 pullRequestQueue 阻塞隊列中拿 pullRequest 執行拉取的,以上方法就是創建 pullRequest 的地方。
源碼分析到這里,就可以弄清楚為什么會報 the consumer's subscription not exist 這個錯誤了:
假設有消費者組 g1,g1下有消費者 c1 和消費者 c2,c1 訂閱了 topicA,c2 訂閱了 topicB,此時c2 先啟動,將 g1 的訂閱信息更新為 topicB,c1 隨后啟動,將 g1 的訂閱信息覆蓋為 topicA,c1 的 Rebalance 負載將 topicA 的 pullRequest 添加到 pullRequestQueue 中,而恰好此時 c2 心跳包又將 g1 的訂閱信息更新為 topicB,那么此時 c1 的 PullMessageService 線程拿到 pullRequestQueue 中 topicA 的 pullRequest 進行消息拉取,然而在 broker 端找不到消費者組 g1 下 topicA 的訂閱信息(因為此時恰好被 c2 心跳包給覆蓋了),就會報消費者訂閱信息不存在的錯誤了。