為什么你要使用這么強大的分布式消息中間件——kafka

本文轉載自查看原文 2019-07-10 15:03 545 kafka/ 中間件/ 消息隊列

為什么是kafka？

在我們大量使用分布式數據庫、分布式計算集群的時候，是否會遇到這樣的一些問題：

我們想分析下用戶行為（pageviews），以便我們設計出更好的廣告位
我想對用戶的搜索關鍵詞進行統計，分析出當前的流行趨勢
有些數據，存儲數據庫浪費，直接存儲硬盤效率又低

這些場景都有一個共同點：
數據是由上游模塊產生，上游模塊，使用上游模塊的數據計算、統計、分析，這個時候就可以使用消息系統，尤其是分布式消息系統！

知道了我們有必要在數據處理系統中使用一個消息系統，但是我們為什么一定要選kafka呢？現在的消息系統可不只有kafka。

話說阿里中間件團隊和LinkedIn團隊都做了一個Kafka、RabbitMQ、RocketMQ的三者對比。這邊就不獻丑了，實際結果可以參考以下兩篇博文：

阿里測試：http://jm.taobao.org/2016/04/01/kafka-vs-rabbitmq-vs-rocketmq-message-send-performance/

LinkedIn測試：https://blog.csdn.net/SJF0115/article/details/78480433

對比圖

Kafka簡介

Kafka是Linkedin於2010年12月份創建的開源消息系統，它主要用於處理活躍的流式數據。活躍的流式數據在web網站應用中非常常見，這些活動數據包括頁面訪問量（Page View）、被查看內容方面的信息以及搜索情況等內容。這些數據通常以日志的形式記錄下來，然后每隔一段時間進行一次統計分析。

傳統的日志分析系統是一種離線處理日志信息的方式，但若要進行實時處理，通常會有較大延遲。而現有的消息隊列系統能夠很好的處理實時或者近似實時的應用，但未處理的數據通常不會寫到磁盤上，這對於Hadoop之類，間隔時間較長的離線應用而言，在數據安全上會出現問題。Kafka正是為了解決以上問題而設計的，它能夠很好地進行離線和在線應用。

kafka部署結構

消息隊列（Message Queue，簡稱MQ），從字面意思上看，本質是個隊列，FIFO先入先出，只不過隊列中存放的內容是message而已。其主要用途：不同進程Process/線程Thread之間通信。

幾大特性：

高吞吐量：可以滿足每秒百萬級別消息的生產和消費——生產消費。
負載均衡：通過zookeeper對Producer,Broker,Consumer的動態加入與離開進行管理。
拉取系統：由於kafka broker會持久化數據，broker沒有內存壓力，因此，consumer非常適合采取pull的方式消費數據
動態擴展：當需要增加broker結點時，新增的broker會向zookeeper注冊，而producer及consumer會通過zookeeper感知這些變化，並及時作出調整。
消息刪除策略：數據文件將會根據broker中的配置要求,保留一定的時間之后刪除。kafka通過這種簡單的手段,來釋放磁盤空間。

消息收發流程：

啟動Zookeeper及Broker.
Producer連接Broker后，將消息發布到Broker中指定Topic上(可以指定Patition)。
Broker集群接收到Producer發過來的消息后，將其持久化到硬盤，並將消息該保留指定時長（可配置），而不關注消息是否被消費。
Consumer連接到Broker后，啟動消息泵對Broker進行偵聽，當有消息到來時，會觸發消息泵循環獲取消息，獲取消息后Zookeeper將記錄該Consumer的消息Offset。

Kafka服務：

對於kafka而言，kafka服務就像是一個大的水池。不斷的生產、存儲、消費着各種類別的消息。那么kafka由何組成呢？

Broker ： Kafka消息服務器，消息中心。一個Broker可以容納多個Topic。
Producer ：消息生產者，就是向Kafka broker發消息的客戶端。
Consumer ：消息消費者，向Kafka broker取消息的客戶端。
Zookeeper ：管理Producer，Broker，Consumer的動態加入與離開。
Topic ：可以為各種消息划分為多個不同的主題，Topic就是主題名稱。Producer可以針對某個主題進行生產，Consumer可以針對某個主題進行訂閱。
Consumer Group： Kafka采用廣播的方式進行消息分發，而Consumer集群在消費某Topic時， Zookeeper會為該集群建立Offset消費偏移量，最新Consumer加入並消費該主題時，可以從最新的Offset點開始消費。
Partition：Kafka采用對數據文件切片（Partition）的方式可以將一個Topic可以分布存儲到多個Broker上，一個Topic可以分為多個Partition。在多個Consumer並發訪問一個partition會有同步鎖控制。

有的時候，不光是燈紅酒綠的世界可以讓人沉迷，技術的世界也同樣如此。而且有的時候，技術的世界比前者更加可怕，它不但能讓你悄無聲息的陷入進去，還能讓你產生一種你很上進，你很努力的假象，以至於等到你恍然大悟那天，已經悔之晚矣。這里向大家推薦一個測試交流圈q裙：790047143。

所以大家一定要找准自己的方向，不能因為今天阿里招聘需求這么寫就去學這些，明天看到一個技術很牛逼又去學那個。

未來Kafka中間件

目前該中間件只完成了初級階段功能，很多功能都不完善不深入，隨着應用業務的拓展及Kafka未來版本功能支持。以Kafka消息中間件為中心的大數據處理平台還有很多任務去實現。

一般在互聯網中所流動的數據由以下幾種類型：

需要實時響應的交易數據，用戶提交一個表單，輸入一段內容，這種數據最后是存放在關系數據庫(Oracle, MySQL)中的，有些需要事務支持。
活動流數據，准實時的，例如頁面訪問量、用戶行為、搜索情況等。我們可以針對這些數據廣播、排序、個性化推薦、運營監控等。這種數據一般是前端服務器先寫文件，然后通過批量的方式把文件倒到Hadoop(離線數據分析平台)這種大數據分析器里面，進行慢慢的分析。
各個層面程序產生的日志，例如http的日志、tomcat的日志、其他各種程序產生的日志。這種數據一個是用來監控報警，還有就是用來做分析。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 分布式系統消息中間件——RabbitMQ的使用思考篇深入理解阿里分布式消息中間件之消息隊列基於RabbitMQ消息隊列的分布式事務解決方案 - MQ分布式消息中間件實戰為什么要使用MQ消息中間件?這3個點讓你徹底明白！轉]大規模分布式消息中間件簡介騰訊萬億級分布式消息中間件TubeMQ正式開源消息中間件——kafka 業務系統對消息中間件的要求（接上一篇《分布式消息中間件中的一些概念》）分布式mysql中間件（mycat）分布式mysql中間件（mycat）