大數據基礎---流式計算簡介


1.流式計算是什么?

流式計算是相對於批處理來說的,我們以前學的Mapreduce就是批處理,它屬於離線計算,計算的數據都是過去某個時間點的,還有我們開發的軟件管理系統,查詢的也是過去某個時刻錄入的數據。那么流式計算呢,它是在輸入錄入的時候就開始計算了,而且計算的速度還很快,可以達到毫秒級,計算完成后就能實時反饋了,或者存儲起來。這樣的計算一般針對的是交通啊,電商啊,天氣啊等要求實時推送的場景。

2.都有哪些流式計算

常見流式框架包括Storm,Spark Streaming,Samza,Flink。

名稱 公司 適用場景 類型
Storm Twitter 流處理 流式計算
Spark Streaming Apache 適合離線計算和實時計算同時需要的。 混合計算
Samza linkedin 結合Kafka和Spark的流處理 流式計算
Flink Apache 快速的處理 混合計算
Hadoop(這個不包括) Apache 離線計算

3.幾種流式計算的結構差異

Storm架構

211

Spark Streaming架構

Samza架構

Flink架構

系列傳送門


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM