分布式計算技術之Stream流式計算


流式計算的概念

    實時獲取來自不同數據源的海量數據,進行實時分析處理,獲得有價值的信息,一般用於處理數據密集型應用。流式計算屬於持續性、低時延、事件驅動型的計算作業。

流式計算工作原理

1.提交流式計算作業,流式計算作業屬於常駐計算服務,必須預先定義好計算邏輯,並提交到流計算系統中,在系統運行期間,流式計算作業的邏輯是不可更改的

2.加載流式數據進行流計算,流式計算系統中有多個流處理節點

3.持續輸出計算結果

流式計算框架和平台

1.商業級:InfoSphere Streams,StreamBase

2.開源流計算框架:Apache Storm,S4, Spark,Flink

3.互聯網公司自主研發:Facebook Puma,百度的Dstream等

Storm工作原理

架構圖

Nimbus守護進程:負責為集群分發代碼,為工作節點分配任務並進行故障監控

Supervisor進程:負責監聽分配給他所在機器上的工作,負責接收Nimbus分配的任務

Zookeeper:Nimbus和Supervisor進程之間的協調

Worker組件

Spout:用於接收源數據

Bolt:負責處理輸入的數據流

批量計算與流式計算對比


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM