kafka--如何選擇Kafka的分區數和消費者個數

本文轉載自查看原文 2020-08-18 14:54 3031

一.kafka分區優點

kafka使用分區將topic的消息打散到多個分區分布保存在不同的broker上，實現了producer和consumer消息處理的高吞吐量。Kafka的producer和consumer都可以多線程地並行操作，而每個線程處理的是一個分區的數據。因此分區實際上是調優Kafka並行度的最小單元。對於producer而言，它實際上是用多個線程並發地向不同分區所在的broker發起Socket連接同時給這些分區發送消息；而consumer，同一個消費組內的所有consumer線程都被指定topic的某一個分區進行消費。

二. kafka過多分區帶來影響

1)客戶端/服務器端需要使用的內存就越多

Kafka0.8.2之后，在客戶端producer有個參數batch.size，默認是16KB。它會為每個分區緩存消息，一旦滿了就打包將消息批量發出。看上去這是個能夠提升性能的設計。不過很顯然，因為這個參數是分區級別的，如果分區數越多，這部分緩存所需的內存占用也會更多。假設你有10000個分區，按照默認設置，這部分緩存需要占用約157MB的內存。而consumer端呢？我們拋開獲取數據所需的內存不說，只說線程的開銷。如果還是假設有10000個分區，同時consumer線程數要匹配分區數(大部分情況下是最佳的消費吞吐量配置)的話，那么在consumer client就要創建10000個線程，也需要創建大約10000個Socket去獲取分區數據。這里面的線程切換的開銷本身已經不容小覷了。
服務器端的開銷也不小，如果閱讀Kafka源碼的話可以發現，服務器端的很多組件都在內存中維護了分區級別的緩存，比如controller，FetcherManager等，因此分區數越多，這種緩存的成本就越大。

2)文件句柄的開銷

每個分區在底層文件系統都有屬於自己的一個目錄。該目錄下通常會有兩個文件： base_offset.log和base_offset.index。Kafak的controller和ReplicaManager會為每個broker都保存這兩個文件句柄(file handler)。很明顯，如果分區數越多，所需要保持打開狀態的文件句柄數也就越多，最終可能會突破你的ulimit -n的限制。

3)降低高可用性

Kafka通過副本(replica)機制來保證高可用。具體做法就是為每個分區保存若干個副本(replica_factor指定副本數)。每個副本保存在不同的broker上。期中的一個副本充當leader 副本，負責處理producer和consumer請求。其他副本充當follower角色，由Kafka controller負責保證與leader的同步。如果leader所在的broker掛掉了，contorller會檢測到然后在zookeeper的幫助下重選出新的leader——這中間會有短暫的不可用時間窗口，雖然大部分情況下可能只是幾毫秒級別。但如果你有10000個分區，10個broker，也就是說平均每個broker上有1000個分區。此時這個broker掛掉了，那么zookeeper和controller需要立即對這1000個分區進行leader選舉。比起很少的分區leader選舉而言，這必然要花更長的時間，並且通常不是線性累加的。如果這個broker還同時是controller情況就更糟了。

三. 如何正確選擇kafka分區數

創建一個只有1個分區的topic，然后測試這個topic的producer吞吐量和consumer吞吐量。假設它們的值分別是Tp和Tc，單位可以是MB/s。然后假設總的目標吞吐量是Tt，那么分區數 = Tt / max(Tp, Tc)

四.一條消息如何知道要被發送到哪個分區？

按照key值分配, 默認情況下，Kafka根據傳遞消息的key來進行分區的分配，即hash(key) % numPartitions：

五.Consumer個數與分區數有什么關系？

topic下的一個分區只能被同一個consumer group下的一個consumer線程來消費。

如果你的分區數是N，那么最好線程數也保持為N，這樣通常能夠達到最大的吞吐量。超過N的配置只是浪費系統資源，因為多出的線程不會被分配到任何分區。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Kafka分區數與消費者個數 Kafka 消費者及消費者分區策略 Kafka分區與消費者的關系 idea maven項目操作kafka--生產者和消費者 kafka消費組消費者分區策略關於kafka消費組模式，分區數和消費者數的一些疑惑 Kafka 生產者、消費者與分區的關系 kafka 設置消費者線程數 Kafka 消費者是否可以消費指定分區消息？ Kafka消費者Demo