Kakfa揭秘 Day4

Kafka中分區深度解析

今天主要談Kafka中的分區數和consumer中的並行度。從使用Kafka的角度說，這些都是至關重要的。

Partition代表一個topic的分區，可以看到在構造時注冊了zookeeper，也就是說kafka在分區時，是被zk管理的。
Snip20160630_73

在實際存儲數據時，怎么確定分區。
咱們從kafka的設計開始，為了完成高吞吐性，關鍵有兩點設計：

也就是分區是高吞吐的一個關鍵。從具體實現看，每次來請求的時候，都會用一條新的線程來處理，每次consumer或者producer，背后都有一個socketServer，提供NIO操作。

Snip20160630_74

那是不是說Kafka只要topic越多，上面的partition越多，吞吐就越大么？凡事都有利弊，這里有幾點考慮。

當分區變多時，服務器需要開辟更多的線程，有更多的內存消耗和CPU的使用，太多的時候，會產生太多的句柄，那么管理方面消耗就會過大。
kafka本身在運行時，每個producer在寫數據時，都有一個cache，達到量之后，會把具體的消息發送給kafka集群，分區越多的情況下，從producer角度，cache就越大，內存消耗越多。
kafka cluster有很多的組件，在分區數較多時會進行大量的管理，會產生大量的句柄。
ReplicaManager 都要管理每個parition，需要保存相關的句柄，並進行leader、follower與zk交互，在選舉過程中會有短暫的不可用，當分區過多時，讓zk選舉的工作也會特別龐大。

所以，從工作角度，是需要設定一個合適的分區數，這個是需要根據實際數據情況進行訓練的。