Storm 簡介及其框架概念


 

Storm框架


Apache Storm is a free and open source distributed realtime computation system
它是分布式實時計算處理系統
Storm makes it easy to reliably process unbounded streams of data

Storm是一個免費並開源的分布式實時計算系統。
利用Storm可以很容易做到可靠地處理無限的數據流,
像Hadoop批量處理大數據一樣,Storm可以實時處理數據。
Storm簡單,可以使用任何編程語言

 

unbounded streams of data
無邊界的流數據

它提供相應簡單的編程模型就可以實現實時數據計算處理功能

Storm is fast: a benchmark clocked it at over a million tuples processed per second per node. It is scalable, fault-tolerant, guarantees your data will be processed, and is easy to set up and operate.
它非常快速,秒級處理百萬元組數據,它是一個可擴展、保證數據肯定會處理的框架

Storm的特點
編程簡單:開發人員只需要關注應用邏輯,而且跟Hadoop類似,Storm提供的編程原語也很簡單。
高性能,低延遲:可以應用於廣告搜索引擎這種要求對廣告主的操作進行實時響應的場景。
分布式:可以輕松應對數據量大,單機搞不定的場景
可擴展: 隨着業務發展,數據量和計算量越來越大,系統可水平擴展
容錯:單個節點掛了不影響應用
消息不丟失:保證消息處理

總結:
1、它分布式實時計算框架
2、處理數據非常快速,秒級百萬元數組的處理效率
3、數據具有可靠性
4、它具有可擴展、可容錯的框架

5.它是一個真正的實時流處理框架

 


Storm對比Hadoop
1.Hadoop上運行的是MapReduce jobs,而在Storm上運行的是topology
2.Hadoop使用磁盤作為中間交換的介質,而storm的數據是一直在內存中流轉
3.hadoop的數據源是HDFS上某文件夾下已經存在的TB級的大數據,待處理的數據是相對不變的;而Storm的數據源是實時新增的B或KB級的小數據,處理的數據是支持增加的。
4.一個MapReduce job數據處理完后會自動結束, 而一個topology數據處理完后會一直等待下一個數據的到來,不會自動停止(除非你手動強制停止)。
5.hadoop擅長批處理、吞吐量大、做全量數據的離線分析,Storm的優勢是數據的實時分析,以實時性高被廣泛應用,單位時間內的吞吐量要小於Hadoop。
6.Hadoop下的Map/Reduce計算框架對於數據的處理
7.Storm是一個流式計算框架,對於數據的處理流程是:Storm將數據以Stream的方式,並按照Topology的順序,依次處理並最終生成結果

 


Storm對比Spark Streaming

 

Storm應用案例
一淘:實時分析系統
攜程:網站性能監控
阿里媽媽:用戶畫像
基於Storm的詐騙電話分析系統的設計與實現


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM