kafka基礎知識梳理

本文轉載自查看原文 2021-06-22 15:14 185 Kafka

一.Kafka的基本概念

關鍵字：分布式發布訂閱消息系統；分布式的，分區的消息服務

Kafka是一種高吞吐量的分布式發布訂閱消息系統，使用Scala編寫。
對於熟悉JMS（Java Message Service）規范的同學來說，消息系統已經不是什么新概念了(例如ActiveMQ，RabbitMQ等)。
Kafka擁有作為一個消息系統應該具備的功能，但是確有着獨特的設計。可以這樣來說，Kafka借鑒了JMS規范的思想，但是確並沒有完全遵循JMS規范。
kafka是一個分布式的，分區的消息(官方稱之為commit log)服務。它提供一個消息系統應該具備的功能，但是確有着獨特的設計。

二.基礎的消息(Message)相關術語

1.Topic

Kafka按照Topic分類來維護消息

2.Producer

我們將發布(publish)消息到Topic的進程稱之為生產者(producer)

3.Consumer

我們將訂閱(subscribe)Topic並且處理Topic中消息的進程稱之為消費者(consumer)

4.Broker

Kafka以集群的方式運行，集群中的每一台服務器稱之為一個代理(broker)。

因此，從一個較高的層面上來看，producers通過網絡發送消息到Kafka集群，然后consumers來進行消費，如下圖

服務端(brokers)和客戶端(producer、consumer)之間通信通過TCP協議來完成。我們為Kafka提供了一個Java客戶端，但是也可以使用其他語言編寫的客戶端。

5.Topic和Log

我們首先深入理解Kafka提出一個高層次的抽象概念-Topic。
可以理解Topic是一個類別的名稱，所有的message發送到Topic下面。對於每一個Topic，kafka集群按照如下方式維護一個分區(Partition,可以就理解為一個隊列Queue)日志文件:

6.partition

partition是一個有序的message序列，這些message按順序添加到一個叫做commit log的文件中。每個partition中的消息都有一個唯一的編號，稱之為offset，用來唯一標示某個分區中的message。

提示：每個partition，都對應一個commit-log。一個partition中的message的offset都是唯一的，但是不同的partition中的message的offset可能是相同的。

6.1 對log進行分區的目的

對log進行分區（partitioned），有以下目的。首先，當log文件大小超過系統文件系統的限制時，可以自動拆分。每個partition對應的log都受到所在機器的文件系統大小的限制，但是一個Topic中是可以有很多分區的，因此可以處理任意數量的數據。另一個方面，是為了提高並行度。

7.offset

7.1 consumer有自己的offset

每個consumer是基於自己在commit log中的消費進度(offset)來進行工作的。在kafka中，offset由consumer來維護：一般情況下我們按照順序逐條消費commit log中的消息，當然我可以通過指定offset來重復消費某些消息，或者跳過某些消息。

這意味kafka中的consumer對集群的影響是非常小的，添加一個或者減少一個consumer，對於集群或者其他consumer來說，都是沒有影響的，因此每個consumer維護各自的offset。

8.Distribution

log的partitions分布在kafka集群中不同的broker上，每個broker可以請求備份其他broker上partition上的數據。kafka集群支持配置一個partition備份的數量。

針對每個partition，都有一個broker起到“leader”的作用，0個多個其他的broker作為“follwers”的作用。leader處理所有的針對這個partition的讀寫請求，而followers被動復制leader的結果。如果這個leader失效了，其中的一個follower將會自動的變成新的leader。每個broker都是自己所管理的partition的leader，同時又是其他broker所管理partitions的followers，kafka通過這種方式來達到負載均衡。

9.Producers

生產者將消息發送到topic中去，同時負責選擇將message發送到topic的哪一個partition中。通過round-robin做簡單的負載均衡。也可以根據消息中的某一個關鍵字來進行區分。通常第二種方式使用的更多。

10.Consumers

consumer實例可以運行在不同的進程上，也可以在不同的物理機器上。
如果所有的consumer都位於同一個consumer group 下，這就類似於傳統的queue模式，並在眾多的consumer instance之間進行負載均衡。

10.1 consumer group概念

Kafka基於這2種模式提供了一種consumer的抽象概念：consumer group。

每個consumer都要標記自己屬於哪一個consumer group。

如果所有的consumer都有着自己唯一的consumer group，這就類似於傳統的publish-subscribe模型。

10.2 隊列(queuing)模式

在queuing模式中，多個consumer從服務器中讀取數據，消息只會到達一個consumer。

10.3 發布訂閱(publish-subscribe)模式

在 publish-subscribe模型中，消息會被廣播給所有的consumer。

通常一個topic會有幾個consumer group，每個consumer group都是一個邏輯上的訂閱者（logical subscriber）。每個consumer group由多個consumer instance組成，從而達到可擴展和容災的功能。這並沒有什么特殊的地方，僅僅是將publish-subscribe模型中的運行在單個進程上的consumers中的consumer替換成一個consumer group。如下圖所示

說明：由2個broker組成的kafka集群，總共有4個Parition(P0-P3)。這個集群由2個Consumer Group， A有2個 consumer instances ，而B有四個

三.Kafka的消費順序

Kafka比傳統的消息系統有着更強的順序保證。

在傳統的情況下，服務器按照順序保留消息到隊列，如果有多個consumer來消費隊列中的消息，服務器會接受消息的順序向外提供消息。但是，盡管服務器是按照順序提供消息，但是消息傳遞到每一個consumer是異步的，這可能會導致先消費的consumer獲取到消息時間可能比后消費的consumer獲取到消息的時間長，導致不能保證順序性。這表明，當進行並行的消費的時候，消息在多個 consumer之間可能會失去順序性。

消息系統通常會采取一種“exclusive consumer”的概念，來確保同一時間內只有一個consumer能夠從隊列中進行消費，但是這實際上意味着在消息處理的過程中是不支持並行的。

Kafka partition保證局部順序

Kafka比傳統方式做得更好：通過Topic中並行度的概念，即partition，Kafka可以同時提供順序性保證和多個consumer同時消費時的負載均衡。

實現的原理是通過將一個topic中的partition分配給一個consumer group中的不同consumer instance。通過這種方式，我們可以保證一個partition在同一個時刻只有一個consumer instance在消息，從而保證順序。雖然一個topic中有多個partition，但是一個consumer group中同時也有多個consumer instance，通過合理的分配依然能夠保證負載均衡。需要注意的是，一個consumer group中的consumer instance的數量不能比一個Topic中的partition的數量多。

Kafka只在partition的范圍內保證消息消費的局部順序性，不能在同一個topic中的多個partition中保證總的消費順序性。通常來說，這已經可以滿足大部分應用的需求。但是，如果的確有在總體上保證消費的順序的需求的話，那么我們可以通過將topic的partition數量設置為1，將consumer group中的consumer instance數量也設置為1.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 kafka 基礎知識梳理及集群環境部署記錄 python3基礎知識梳理 Unity3D基礎知識梳理 kafka搭建&&kafka基礎知識 [SQL] SQL 基礎知識梳理（二） - 查詢基礎 [UE4]藍圖基礎知識點梳理1 C#基礎知識梳理系列九：StringBuilder [SQL] SQL 基礎知識梳理（七）- 集合運算 C++基礎知識梳理--C++的6個默認函數 [SQL] SQL 基礎知識梳理（三） - 聚合和排序