Hadoop
Hadoop是什么?
答:一個分布式系統基礎架構。
Hadoop解決了什么問題?
答:解決了大數據(大到一台計算機無法進行存儲,一台計算機無法在要求的時間內進行處理)的可靠存儲(HDFS)和處理(MapReduce)。
Hive
Hive是什么?
答:Hive是建立在Hadoop之上的,使用Hadoop作為底層存儲的批處理系統。(可以理解為MapReduce的一層殼)
Hive解決了什么問題?
答:Hive是為了減少MapReduce jobs的編寫工作。
HBase
HBase是什么?
答:HBase是一種Key/Value系統,它運行在HDFS之上。
HBase解決了什么問題?
答:Hbase是為了解決Hadoop的實時性需求。
Spark和Storm是什么?
答:Spark和Storm都是通用的並行計算框架。
解決了什么問題?
答:解決Hadoop只適用於離線數據處理,而不能提供實時數據處理能力的問題。
區別:
1. Spark基於這樣的理念,當數據龐大時,把計算過程傳遞給數據要比把數據傳遞給計算過程要更富效率。而Storm是把數據傳遞給計算過程。
基於設計理念的不同,其應用領域也不同。Spark工作於現有的數據全集(如Hadoop數據)已經被導入Spark集群,Spark基於in-memory管理可以進行快訊掃描,並最小化迭代算法的全局I/O操作。Storm在動態處理大量生成的“小數據塊”上要更好(比如在Twitter數據流上實時計算一些匯聚功能或分析)。
