1.流式計算是什么?
流式計算是相對於批處理來說的,我們以前學的Mapreduce就是批處理,它屬於離線計算,計算的數據都是過去某個時間點的,還有我們開發的軟件管理系統,查詢的也是過去某個時刻錄入的數據。那么流式計算呢,它是在輸入錄入的時候就開始計算了,而且計算的速度還很快,可以達到毫秒級,計算完成后就能實時反饋了,或者存儲起來。這樣的計算一般針對的是交通啊,電商啊,天氣啊等要求實時推送的場景。
2.都有哪些流式計算
常見流式框架包括Storm,Spark Streaming,Samza,Flink。
名稱 | 公司 | 適用場景 | 類型 |
---|---|---|---|
Storm | 流處理 | 流式計算 | |
Spark Streaming | Apache | 適合離線計算和實時計算同時需要的。 | 混合計算 |
Samza | 結合Kafka和Spark的流處理 | 流式計算 | |
Flink | Apache | 快速的處理 | 混合計算 |
Hadoop(這個不包括) | Apache | 離線計算 |
3.幾種流式計算的結構差異
Storm架構
211