kafka producer性能調優

本文轉載自查看原文 2017-02-24 15:59 10648 kafka/ Kafka

時間 2016-12-27 18:27:00 Kami Wan

原文 http://www.kaimingwan.com/post/kafka/kafka-producerxing-neng-diao-you

主題 Apache Kafka

1. 介紹

原文來自linkedin的一篇PPT producer-performance-tuning-for-apache-kafka 。

2. 本文的一些前提

討論的kafka版本為0.10.0
沒有broker端的再壓縮
消息都有8字節的時間戳介紹信息

3. 優化目標

給定一個要發送的數據集，在滿足持久性、有序性的前提下優化以下兩點：

吞吐量
延遲

優化專注於優化平均性能，這樣對所有的producer都有效。

4. kafka producer原理回顧

4.1 生產者的關鍵配置

batch.size：基於大小的batching策略
linger.ms：基於時間的batching策略
compression.type：壓縮的速度上lz4=snappy<gzip。
max.in.flight.requests.per.connection (affects ordering，設置為1可以保證有序性，但是發送性能會受影響。不為1的時候，如果發生消息重發則會亂序)
acks (affects durability)

PS：更大的批次，意味着更好的壓縮率、更高的吞吐量。但是負面影響，就是延遲會高些。

4.2 生產者發送原理

這個之前在kafka生產者原理詳解一文中做了一些分析。現在來看看kafka的 committer如何來分析的發送者原理的。其分析相對更加簡明扼要。

發送者發送消息的過程簡單概括為：

序列化
根據topic的元信息對數據進行分區
分區數據經過壓縮器處理后放入batch，產生M和CB。分區數據按照batch在Record Accumulator里面組織(used和callback)。一個batch對象本身會占用一些空間，圖上的used和callbacks。

假設現在Record Accumulator中已經包含了如下的數據：

當一個batch准備完畢后，用戶線程就可以去執行具體的發送操作了。當滿足以下條件之一時，我們認為一個batch是已經“准備完畢的”：

batch.size達到了
linger.ms時間達到了
發現同一個broker的其他batch已經完畢了
flush()和close()方法被調用

用戶線程獲取batch的過程如下：

從batch隊列中輪詢獲取batch
將batch根據leader broker來分組
將分完組的batches發送給broker
如果max.in.flight.requests.per.connection>1則在管道中排隊

PS：接下來的說明，都假設max.in.flight.requests.per.connection=1

5. 生產者調優

5.1 調優工具

生產者調優，主要可以利用kafka-producer-perf-test.sh(org.apache.kafka.tools.ProducerPerformance)。通過測試不同的配置來對比發送效率。

使用方法例子：

./kafka-producer-perf-test.sh --num-records 1000000 --record-size 1000 --topic
becket_test_3_replicas_1_partition --throughput 1000000 --producer-props bootstrap. servers=localhost:9092 max.in.flight.requests.per.connection=1 batch.size=100000 compression.type=lz4

PS: kafka 0.8的版本還支持thread-num等選項，現在0.10.1中還沒有，不過已經有issue在解決了。相信馬上會有了。詳情見： KAFKA-3554

3554修復后會有如下功能：

--num-threads: 發送消息的線程數
--value-bound: The range of the random integer in the messages. This option is useful when compression is used.Different integer range simulates different compression ratio.
producer metrics: 在使用ProducerPerformance的時候，還會打印一系列metrics。

關於第三點，是以前沒有的特性。這個對生產者調優十分重要。使用ProducerPerformance的時候，打印的度量信息有:

Select_Rate_Avg (The rate that the sender thread runs to check if it can send some messages)
Request_Rate_Avg
Request_Latency_Avg (Not including the callback execution time)
Request_Size_Avg (After compression)
Batch_Size_Avg (After compression)
Records_Per_Request_Avg
Record_Queue_Time_Avg
Compression_Rate_Avg

PS：以上度量信息，需要至少1分鍾運行時間才能保證穩定。

使用例子：

./kafka-producer-perf-test.sh --num-records 1000000 --record-size 1000 --topic becket_test_3_replicas_4_partition --throughput 100000 --num-threads 1 --value-bound 50000 --producer-props bootstrap.servers=localhost:9092 compression.type=gzip max.in.flight. requests.per.connection=1