一,
下面一張圖為傳統架構和Hadoop的區別
主要講以下橫向擴展和擴展
橫向擴展:(Mpp 是hash分布,具有20節點)添加新的設備和現有的設備一起提供負載能力。Hadoop中系統擴容時,系統平台增加新節點之后,系統自動在所有節點之間均衡數據。
縱向擴展:(oracle兩個節點)向上擴展,指的是替換掉已經不能滿足需求的硬件設備、采購更高性能的硬件設備,從而提升系統的負載能力。
二,Hadoop集群是一種專門為存儲和分析海量非結構化數據而設計的特定類型的集群。本質上,它是一種計算集群,即將數據分析的工作分配到多個集群節點上,從而並行處理數據。
優點:
1、擴展能力(橫向擴展)
Hadoop技術平台各組件均基於分布式儲存和運算的概念,能可靠儲存和處理海量數據(PB級)。在不保證低延時的前提下,可提供高吞吐量支持海量數據的運算。對傳統數據倉庫擴容成本高的限制,Hadoop平台具有運算性能線性擴展的性能,同時數據自動分布,不影響原有應用運行。
2、低成本
基於分布式儲存和計算的特點,Hadoop平台對集群內單個節點的配置要求不高,集群性能主要由節點數和網絡吞吐率判定。因此Hadoop可大規模部署於普通服務器上,對海量低價值數據的存儲擁有極高性價比。
3、數據結構多樣化
支持結構化,半結構化,非結構化的數據。
4、故障容錯能力
當一個數據分片發送到某個節點進行分析時,該數據在集群其它節點上會有副本。通過這種方式,即使一個節點發生故障,該節點數據的額外拷貝仍存在於集群內的其它地方,這樣數據仍可以進行分析處理。