分布式計算技術之Stream流式計算

本文轉載自查看原文 2020-02-13 09:55 1216 極客時間《分布式技術原理與算法解析》

流式計算的概念

實時獲取來自不同數據源的海量數據，進行實時分析處理，獲得有價值的信息，一般用於處理數據密集型應用。流式計算屬於持續性、低時延、事件驅動型的計算作業。

1.提交流式計算作業，流式計算作業屬於常駐計算服務，必須預先定義好計算邏輯，並提交到流計算系統中，在系統運行期間，流式計算作業的邏輯是不可更改的

2.加載流式數據進行流計算，流式計算系統中有多個流處理節點

3.持續輸出計算結果

1.商業級：InfoSphere Streams，StreamBase

2.開源流計算框架：Apache Storm，S4， Spark，Flink

3.互聯網公司自主研發：Facebook Puma，百度的Dstream等

Nimbus守護進程：負責為集群分發代碼，為工作節點分配任務並進行故障監控

Supervisor進程：負責監聽分配給他所在機器上的工作，負責接收Nimbus分配的任務

Zookeeper：Nimbus和Supervisor進程之間的協調

Spout：用於接收源數據

Bolt：負責處理輸入的數據流

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 分布式的並行計算技術從Storm和Spark 學習流式實時分布式計算的設計分布式計算框架Spark 淺談Java分布式計算分布式計算框架——Spark 分布式計算框架分布式計算框架綜述分布式計算（五）Azkaban使用分布式計算，網格計算，雲計算並行計算與分布式計算