相關內容簡體繁體

三個大數據處理框架：Storm，Spark和Samza 介紹比較

本文轉載自查看原文 2017-01-18 09:54 5275 其他

轉自：http://www.open-open.com/lib/view/open1426065900123.html

許多分布式計算系統都可以實時或接近實時地處理大數據流。本文將對三種Apache框架分別進行簡單介紹，然后嘗試快速、高度概述其異同。

Apache Storm

在Storm中，先要設計一個用於實時計算的圖狀結構，我們稱之為拓撲（topology）。這個拓撲將會被提交給集群，由集群中的主控節點（master node）分發代碼，將任務分配給工作節點（worker node）執行。一個拓撲中包括spout和bolt兩種角色，其中spout發送消息，負責將數據流以tuple元組的形式發送出去；而bolt則負責轉換這些數據流，在bolt中可以完成計算、過濾等操作，bolt自身也可以隨機將數據發送給其他bolt。由spout發射出的tuple是不可變數組，對應着固定的鍵值對。

Storm的流處理可對框架中名為Topology（拓撲）的DAG（Directed Acyclic Graph，有向無環圖）進行編排。這些拓撲描述了當數據片段進入系統后，需要對每個傳入的片段執行的不同轉換或步驟。

三個大數據處理框架：Storm，Spark和Samza 介紹比較

Apache Spark

Spark Streaming是核心Spark API的一個擴展，它並不會像Storm那樣一次一個地處理數據流，而是在處理前按時間間隔預先將其切分為一段一段的批處理作業。Spark針對持續性數據流的抽象稱為DStream（DiscretizedStream），一個DStream是一個微批處理（micro-batching）的RDD（彈性分布式數據集）；而RDD則是一種分布式數據集，能夠以兩種方式並行運作，分別是任意函數和滑動窗口數據的轉換。

三個大數據處理框架：Storm，Spark和Samza 介紹比較

Apache Samza

Samza處理數據流時，會分別按次處理每條收到的消息。Samza的流單位既不是元組，也不是Dstream，而是一條條消息。在Samza中，數據流被切分開來，每個部分都由一組只讀消息的有序數列構成，而這些消息每條都有一個特定的ID（offset）。該系統還支持批處理，即逐次處理同一個數據流分區的多條消息。Samza的執行與數據流模塊都是可插拔式的，盡管Samza的特色是依賴Hadoop的Yarn（另一種資源調度器）和Apache Kafka。

三個大數據處理框架：Storm，Spark和Samza 介紹比較

Samza可以使用以本地鍵值存儲方式實現的容錯檢查點系統存儲數據。這樣Samza即可獲得“至少一次”的交付保障，但面對由於數據可能多次交付造成的失敗，該技術無法對匯總后狀態（例如計數）提供精確恢復。

共同之處

以上三種實時計算系統都是開源的分布式系統，具有低延遲、可擴展和容錯性諸多優點，它們的共同特色在於：允許你在運行數據流代碼時，將任務分配到一系列具有容錯能力的計算機上並行運行。此外，它們都提供了簡單的API來簡化底層實現的復雜程度。

三種框架的術語名詞不同，但是其代表的概念十分相似：

三個大數據處理框架：Storm，Spark和Samza 介紹比較

對比圖

下面表格總結了一些不同之處：

三個大數據處理框架：Storm，Spark和Samza 介紹比較

數據傳遞形式分為三大類：

最多一次（At-most-once）：消息可能會丟失，這通常是最不理想的結果。
最少一次（At-least-once）：消息可能會再次發送（沒有丟失的情況，但是會產生冗余）。在許多用例中已經足夠。
恰好一次（Exactly-once）：每條消息都被發送過一次且僅僅一次（沒有丟失，沒有冗余）。這是最佳情況，盡管很難保證在所有用例中都實現。

另一個方面是狀態管理：對狀態的存儲有不同的策略，Spark Streaming將數據寫入分布式文件系統中（例如HDFS）；Samza使用嵌入式鍵值存儲；而在Storm中，或者將狀態管理滾動至應用層面，或者使用更高層面的抽象Trident。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 處理大數據流常用的三種Apache框架：Storm、Spark和Samza。(主要介紹Storm) 大數據框架對比：Hadoop、Storm、Samza、Spark和Flink Storm，Spark和Flink三種流式大數據處理框架對比大數據框架對比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看大數據處理框架之Strom：kafka storm 整合大數據框架對比：Hadoop、Storm、Samza、Spark和Flink--容錯機制（ACK，RDD，基於log和狀態快照），消息處理at least once，exactly once兩個是關鍵大數據處理框架 Spark大數據處理之從WordCount看Spark大數據處理的核心機制（2） Spark大數據處理之從WordCount看Spark大數據處理的核心機制（1）撰寫的《大數據處理框架Apache Spark設計與實現》出版了

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM