storm介紹，核心組件，編程模型

本文轉載自查看原文 2018-08-14 00:47 1014 storm

一、流式計算概念

　　利用分布式的思想和方法，對海量“流”式數據進行實時處理，源自業務對海量數據，在“時效”的價值上的挖掘訴求，隨着大數據場景應用場景的增長，對流式計算的需求愈發增多，流式計算的一般架構圖如下：

　　Flume獲取數據-->Kafka傳遞數據-->Strom計算數據-->Redis保存數據

二、storm介紹

　　Apache Storm是一個分布式實時大數據處理系統。Storm設計用於在容錯和水平可擴展方法中處理大量數據。它是一個流數據框架，具有最高的攝取率。Storm是無狀態的，它通過Apache ZooKeeper管理分布式環境和集群狀態。它很簡單，您可以並行地對實時數據執行各種操作，成為實時數據分析的領導者。

　　通俗的說，Storm用來實時處理數據，特點：低延遲、高可用、分布式、可擴展、數據不丟失。提供簡單容易理解的接口，便於開發。

三、storm應用場景和典型案例

　　應用場景：

　　（1）監控日志分析：從海量日志中分析出特定的數據，並將分析的結果用來輔佐決策，或存入外部存儲器。

　　（2）用戶行為：實時分析用戶的行為日志，將最新的用戶屬性反饋給搜索引擎，能夠為用戶展現最貼近其當前需求的結果。

　　（3）用戶畫像：收集，維護用戶興趣，並在此基礎上向對應受眾的用戶投放不同的數據和信息。

　　典型案例：

　　（1）廣告投放：為了更加精准投放廣告，后台計算引擎需要維護每個用戶的興趣點（理想狀態是，你對什么感興趣，就向你投放哪類廣告）。用戶興趣主要基於用戶的歷史行為、用戶的實時查詢、用戶的實時點擊、用戶的地理信息而得，其中實時查詢、實時點擊等用戶行為都是實時數據。考慮到系統的實時性，許多廠商使用Storm維護用戶興趣數據，並在此基礎上進行受眾定向的廣告投放

　　（2）淘寶：實時分析用戶行為，將用戶搜索的寶貝反饋給搜索引擎，通過實時數據分析，為用戶展現最貼近其當前需求的結果，或是賣家在后台看到自己的店鋪有巨大的用戶訪問量，但實際買單卻很少，則可以借助此數據分析進行一定的打折促銷活動。

　　（3）大型系統監控：收集和分析系統運行過程中的各指標和產生的日志，進行實時分析處理，並作出下一步的決策或告警。

四、storm核心組件

　　（1）Nimbus：負責資源分配和任務調度。

　　（2）Supervisor：負責接受nimbus分配的任務，啟動和停止屬於自己管理的worker進程。---通過配置文件設置當前supervisor上啟動多少個worker。
　　（3）Worker：運行具體處理組件邏輯的進程。Worker運行的任務類型只有兩種，一種是Spout任務，一種是Bolt任務。
　　（4）Task：worker中每一個spout/bolt的線程稱為一個task. 在storm0.8之后，task不再與物理線程對應，不同spout/bolt的task可能會共享一個物理線程，該線程稱為executor。

五、storm編程模型及Stream Grouping

　下面講述storm的編程模型，同時也是worker的工作流程

　　Topology：Storm中運行的一個實時應用程序的名稱。

　　Spout：在一個topology中獲取源數據流的組件。通常情況下spout會從外部數據源中讀取數據，然后轉換為topology內部的源數據。
　　Bolt：接受數據然后執行處理的組件,用戶可以在其中執行自己想要的操作。
　　Tuple：一次消息傳遞的基本單元，理解為一組消息就是一個Tuple，一個Tuple單元會包含一個list對象。
　　Stream：表示數據的流向。

　　可以注意到，一個spout可以向內部的bolt發送數據，也可以向外部的bolt發送，這里即產生一個數據流向的策略問題，Storm里面有7種類型的stream流向策略Stream Grouping

　　（1）Shuffle Grouping: 隨機分組，隨機派發stream里面的tuple，保證每個bolt接收到的tuple數目大致相同。
　　（2）Fields Grouping：按字段分組，比如按userid來分組，具有同樣userid的tuple會被分到相同的Bolts里的一個task，而不同的userid則會被分配到不同的bolts里的task。
　　（3）All Grouping：廣播發送，對於每一個tuple，所有的bolts都會收到。
　　（4）Global Grouping：全局分組，這個tuple被分配到storm中的一個bolt的其中一個task。再具體一點就是分配給id值最低的那個task。
　　（5）Non Grouping：不分組，這stream grouping個分組的意思是說stream不關心到底誰會收到它的tuple。目前這種分組和Shuffle grouping是一樣的效果，有一點不同的是storm會把這個bolt放到這個bolt的訂閱者同一個線程里面去執行。
　　（6）Direct Grouping：直接分組，這是一種比較特別的分組方法，用這種分組意味着消息的發送者指定由消息接收者的哪個task處理這個消息。只有被聲明為Direct Stream的消息流可以聲明這種分組方法。而且這種消息tuple必須使用emitDirect方法來發射。消息處理者可以通過TopologyContext來獲取處理它的消息的task的id（OutputCollector.emit方法也會返回task的id）。
　　（7）Local or shuffle grouping：如果目標bolt有一個或者多個task在同一個工作進程中，tuple將會被隨機發生給這些tasks。否則，和普通的Shuffle Grouping行為一致。

六、storm和Hadoop的核心組件對比

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Storm集成Kafka編程模型 hadoop三大核心組件介紹 Kubernetes之（三）核心組件ETCD介紹 Storm介紹(二) Storm核心基礎 Flink&Blink【編程模型、核心概念、SQL代碼實戰】 storm 入門原理介紹 Storm入門（一）原理介紹 Mybatis(四)：MyBatis核心組件介紹原理解析和源碼解讀 Spring Security(1)：認證和授權的核心組件介紹及源碼分析