Hadoop Hive HBase Spark Storm概念解釋


Hadoop
Hadoop是什么?
答:一個分布式系統基礎架構。

Hadoop解決了什么問題?
答:解決了大數據(大到一台計算機無法進行存儲,一台計算機無法在要求的時間內進行處理)的可靠存儲(HDFS)和處理(MapReduce)。

Hive
Hive是什么?
答:Hive是建立在Hadoop之上的,使用Hadoop作為底層存儲的批處理系統。(可以理解為MapReduce的一層殼)

Hive解決了什么問題?
答:Hive是為了減少MapReduce jobs的編寫工作。

HBase
HBase是什么?
答:HBase是一種Key/Value系統,它運行在HDFS之上。

HBase解決了什么問題?
答:Hbase是為了解決Hadoop的實時性需求。

Spark和Storm是什么? 

答:Spark和Storm都是通用的並行計算框架。

解決了什么問題?
答:解決Hadoop只適用於離線數據處理,而不能提供實時數據處理能力的問題。

區別:
1. Spark基於這樣的理念,當數據龐大時,把計算過程傳遞給數據要比把數據傳遞給計算過程要更富效率。而Storm是把數據傳遞給計算過程。

基於設計理念的不同,其應用領域也不同。Spark工作於現有的數據全集(如Hadoop數據)已經被導入Spark集群,Spark基於in-memory管理可以進行快訊掃描,並最小化迭代算法的全局I/O操作。Storm在動態處理大量生成的“小數據塊”上要更好(比如在Twitter數據流上實時計算一些匯聚功能或分析)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM