Kafka集群消息積壓問題及處理策略

本文轉載自查看原文 2021-03-03 09:00 3865 Kafka消息積壓問題/ 分布式消息系統/ Kafka

通常情況下，企業中會采取輪詢或者隨機的方式，通過Kafka的producer向Kafka集群生產數據，來盡可能保證Kafka分區之間的數據是均勻分布的。

在分區數據均勻分布的前提下，如果我們針對要處理的topic數據量等因素，設計出合理的Kafka分區數量。對於一些實時任務，比如Spark Streaming/Structured-Streaming、Flink和Kafka集成的應用，消費端不存在長時間"掛掉"的情況即數據一直在持續被消費，那么一般不會產生Kafka數據積壓的情況。

但是這些都是有前提的，當一些意外或者不合理的分區數設置情況的發生，積壓問題就不可避免。

Kafka消息積壓的典型場景：

1. 實時/消費任務掛掉

比如，我們寫的實時應用因為某種原因掛掉了，並且這個任務沒有被監控程序監控發現通知相關負責人，負責人又沒有寫自動拉起任務的腳本進行重啟。

那么在我們重新啟動這個實時應用進行消費之前，這段時間的消息就會被滯后處理，如果數據量很大，可就不是簡單重啟應用直接消費就能解決的。

2. Kafka分區數設置的不合理（太少）和消費者"消費能力"不足

Kafka單分區生產消息的速度qps通常很高，如果消費者因為某些原因（比如受業務邏輯復雜度影響，消費時間會有所不同），就會出現消費滯后的情況。

此外，Kafka分區數是Kafka並行度調優的最小單元，如果Kafka分區數設置的太少，會影響Kafka consumer消費的吞吐量。

3. Kafka消息的key不均勻，導致分區間數據不均衡

在使用Kafka producer消息時，可以為消息指定key，但是要求key要均勻，否則會出現Kafka分區間數據不均衡。

那么，針對上述的情況，有什么好的辦法處理數據積壓呢？

一般情況下，針對性的解決辦法有以下幾種：