快速開始
本教程假設您剛剛開始,並且沒有現有的Kafka或ZooKeeper數據。由於Kafka控制台腳本對於基於Unix和Windows的平台是不同的,因此在Windows平台上使用bin\windows\而不是bin/將腳本擴展名更改為.bat。
第1步:下載代碼
下載 2.0.0版本並解壓縮它。
1
2
tar -xzf kafka_2.11-2.0.0.tgz
cd kafka_2.11-2.0.0
第2步:啟動服務器
Kafka使用ZooKeeper,因此如果您還沒有ZooKeeper服務器,則需要先啟動它。您可以使用與kafka一起打包的便捷腳本來獲取快速且臟的單節點ZooKeeper實例。
1
2
3
bin/zookeeper-server-start.sh config/zookeeper.properties
[2013-04-22 15:01:37,495] INFO Reading configuration from: config/zookeeper.properties (org.apache.zookeeper.server.quorum.QuorumPeerConfig)
...
現在啟動Kafka服務器:
1
2
3
4
bin/kafka-server-start.sh config/server.properties
[2013-04-22 15:01:47,028] INFO Verifying properties (kafka.utils.VerifiableProperties)
[2013-04-22 15:01:47,051] INFO Property socket.send.buffer.bytes is overridden to 1048576 (kafka.utils.VerifiableProperties)
...
第3步:創建主題
讓我們創建一個名為“test”的主題,它只包含一個分區,只有一個副本:
1
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
如果我們運行list topic命令,我們現在可以看到該主題:
1
2
bin/kafka-topics.sh --list --zookeeper localhost:2181
test
或者,您也可以將代理配置為在發布不存在的主題時自動創建主題,而不是手動創建主題。
第4步:發送一些消息
Kafka附帶一個命令行客戶端,它將從文件或標准輸入中獲取輸入,並將其作為消息發送到Kafka集群。默認情況下,每行將作為單獨的消息發送。
運行生產者,然后在控制台中鍵入一些消息以發送到服務器。
1
2
3
bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
This is a message
This is another message
第5步:啟動消費者
Kafka還有一個命令行使用者,它會將消息轉儲到標准輸出。
1
2
3
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning
This is a message
This is another message
如果您在不同的終端中運行上述每個命令,那么您現在應該能夠在生產者終端中鍵入消息並看到它們出現在消費者終端中。
所有命令行工具都有其他選項; 運行不帶參數的命令將顯示更詳細地記錄它們的使用信息。
步驟6:設置多代理群集
到目前為止,我們一直在與一個經紀人競爭,但這並不好玩。對於Kafka來說,單個代理只是一個大小為1的集群,因此除了啟動更多代理實例之外沒有太多變化。但是為了感受它,讓我們將我們的集群擴展到三個節點(仍然在我們的本地機器上)。
首先,我們為每個代理程序創建一個配置文件(在Windows上使用copy命令代替):
1
2
cp config/server.properties config/server-1.properties
cp config/server.properties config/server-2.properties
現在編輯這些新文件並設置以下屬性:
1
2
3
4
五
6
7
8
9
config/server-1.properties:
broker.id=1
listeners=PLAINTEXT://:9093
log.dirs=/tmp/kafka-logs-1
config/server-2.properties:
broker.id=2
listeners=PLAINTEXT://:9094
log.dirs=/tmp/kafka-logs-2
該broker.id屬性是群集中每個節點的唯一且永久的名稱。我們必須覆蓋端口和日志目錄,因為我們在同一台機器上運行這些,並且我們希望讓所有代理嘗試在同一端口上注冊或覆蓋彼此的數據。
我們已經啟動了Zookeeper並啟動了我們的單個節點,因此我們只需要啟動兩個新節點:
1
2
3
4
bin/kafka-server-start.sh config/server-1.properties &
...
bin/kafka-server-start.sh config/server-2.properties &
...
現在創建一個復制因子為3的新主題:
1
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 1 --topic my-replicated-topic
好的,但現在我們有一個集群,我們怎么知道哪個經紀人正在做什么?要查看運行“describe topics”命令:
1
2
3
bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
Topic:my-replicated-topic PartitionCount:1 ReplicationFactor:3 Configs:
Topic: my-replicated-topic Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0
這是輸出的解釋。第一行給出了所有分區的摘要,每個附加行提供有關一個分區的信息。由於我們只有一個分區用於此主題,因此只有一行。
“leader”是負責給定分區的所有讀取和寫入的節點。每個節點將成為隨機選擇的分區部分的領導者。
“replicas”是復制此分區日志的節點列表,無論它們是否為領導者,或者即使它們當前處於活動狀態。
“isr”是“同步”復制品的集合。這是副本列表的子集,該列表當前處於活躍狀態並且已經被領導者捕獲。
請注意,在我的示例中,節點1是該主題的唯一分區的領導者。
我們可以在我們創建的原始主題上運行相同的命令,以查看它的位置:
1
2
3
bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic test
Topic:test PartitionCount:1 ReplicationFactor:1 Configs:
Topic: test Partition: 0 Leader: 0 Replicas: 0 Isr: 0
所以毫無疑問 - 原始主題沒有副本,位於服務器0上,是我們創建它時群集中唯一的服務器。
讓我們向我們的新主題發布一些消息:
1
2
3
4
五
bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my-replicated-topic
...
my test message 1
my test message 2
^C
現在讓我們使用這些消息:
1
2
3
4
五
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --from-beginning --topic my-replicated-topic
...
my test message 1
my test message 2
^C
現在讓我們測試一下容錯性。經紀人1充當領導者所以讓我們殺了它:
1
2
3
ps aux | grep server-1.properties
7564 ttys002 0:15.91 /System/Library/Frameworks/JavaVM.framework/Versions/1.8/Home/bin/java...
kill -9 7564
在Windows上使用:
1
2
3
4
wmic process where "caption = 'java.exe' and commandline like '%server-1.properties%'" get processid
ProcessId
6016
taskkill /pid 6016 /f
領導已切換到其中一個從屬節點,節點1不再位於同步副本集中:
1
2
3
bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
Topic:my-replicated-topic PartitionCount:1 ReplicationFactor:3 Configs:
Topic: my-replicated-topic Partition: 0 Leader: 2 Replicas: 1,2,0 Isr: 2,0
但即使最初接受寫入的領導者已經失敗,這些消息仍可供消費:
1
2
3
4
五
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --from-beginning --topic my-replicated-topic
...
my test message 1
my test message 2
^C
步驟7:使用Kafka Connect導入/導出數據
從控制台寫入數據並將其寫回控制台是一個方便的起點,但您可能希望使用其他來源的數據或將數據從Kafka導出到其他系統。對於許多系統,您可以使用Kafka Connect導入或導出數據,而不是編寫自定義集成代碼。
Kafka Connect是Kafka附帶的工具,用於向Kafka導入和導出數據。它是一個可擴展的工具,運行 連接器,實現與外部系統交互的自定義邏輯。在本快速入門中,我們將了解如何使用簡單的連接器運行Kafka Connect,這些連接器將數據從文件導入Kafka主題並將數據從Kafka主題導出到文件。
首先,我們將首先創建一些種子數據進行測試:
1
echo -e "foo\nbar" > test.txt
或者在Windows上:
1
2
echo foo> test.txt
echo bar>> test.txt
接下來,我們將啟動兩個以獨立模式運行的連接器,這意味着它們在單個本地專用進程中運行。我們提供三個配置文件作為參數。第一個始終是Kafka Connect流程的配置,包含常見配置,例如要連接的Kafka代理和數據的序列化格式。其余配置文件均指定要創建的連接器。這些文件包括唯一的連接器名稱,要實例化的連接器類以及連接器所需的任何其他配置。
1
bin/connect-standalone.sh config/connect-standalone.properties config/connect-file-source.properties config/connect-file-sink.properties
Kafka附帶的這些示例配置文件使用您之前啟動的默認本地群集配置並創建兩個連接器:第一個是源連接器,它從輸入文件讀取行並生成每個Kafka主題,第二個是宿連接器從Kafka主題讀取消息並將每個消息生成為輸出文件中的一行。
在啟動過程中,您將看到許多日志消息,包括一些指示正在實例化連接器的日志消息。一旦Kafka Connect進程啟動,源連接器應該開始從test.txt主題讀取行並生成它們connect-test,並且接收器連接器應該開始從主題讀取消息connect-test 並將它們寫入文件test.sink.txt。我們可以通過檢查輸出文件的內容來驗證數據是否已通過整個管道傳遞:
1
2
3
more test.sink.txt
foo
bar
請注意,數據存儲在Kafka主題中connect-test,因此我們還可以運行控制台使用者來查看主題中的數據(或使用自定義使用者代碼來處理它):
1
2
3
4
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic connect-test --from-beginning
{"schema":{"type":"string","optional":false},"payload":"foo"}
{"schema":{"type":"string","optional":false},"payload":"bar"}
...
連接器繼續處理數據,因此我們可以將數據添加到文件中並看到它在管道中移動:
1
echo Another line>> test.txt
您應該看到該行出現在控制台使用者輸出和接收器文件中。
第8步:使用Kafka Streams處理數據
Kafka Streams是一個客戶端庫,用於構建任務關鍵型實時應用程序和微服務,其中輸入和/或輸出數據存儲在Kafka集群中。Kafka Streams結合了在客戶端編寫和部署標准Java和Scala應用程序的簡單性以及Kafka服務器端集群技術的優勢,使這些應用程序具有高度可擴展性,彈性,容錯性,分布式等等。本快速入門示例將演示如何運行在此庫中編碼的流應用程序。