Hadoop 2.x 生態系統及技術架構圖



一、負責收集數據的工具:
Sqoop(關系型數據導入Hadoop)
Flume(日志數據導入Hadoop,支持數據源廣泛)
Kafka(支持數據源有限,但吞吐大)


二、負責存儲數據的工具:
HBase
MongoDB
Cassandra
Accumulo

MySql
Oracle
DB2

HDFS(Hadoop Distribut File System)2.0

三、底層組件
Apache Common(通用模塊)、
Avro(序列化成二進制)、
OS(Linux、windows。。。)

四、通用工具
Zookeeper分布式協作服務
Oozie工作流流調度系統
Ambari圖形化部署、非xml,跟蹤集群狀態

五、分布式計算框架
MapReduce(通過磁盤離線計算)
Spark(通過內存實時計算)
Storm(實現流式數據計算)
Tez(GAG計算,對MR拆分)
Impala(實現實時交互式計算)
Flink、Slider、Open MPI
HCatalog

YARN(跨集群資源調度管理)以上各種計算框架架構在YAEN上,H2.0引入

六、數據分析處理
Hive數據倉庫
sql語句生成MR作業

Pig工作流引擎
類似sql比MR語法簡單

Mahout數據挖掘庫
提供了諸多機器學習算法

Java、.net
R、Scala、Solr
Impapla、Ohter ISV

七、結果輸出
經過數據分析處理,輸出到BI工具、展示系統
ETL Tools
BI Reporting
RDBMS
OLAP


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM