hadoop生態系統的組件hdfs,mapreduce,hive,pig,zookeeper,hbase大家應該都比較熟了,這里簡單總結一下其他不太常用的組件的作用。
Oozie
Oozie是可擴展可伸縮的工作流協調管理器。Oozie協調的作業屬於一次性的非循環作業,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。Oozie將要調度的作業作為一個單一的作業來管理。Oozie的
調度基於時間跟數據可用性。具有數據感知功能,可以協調作業之間的依賴關系.
Flume
Flume是一個類似facebook的scribe的分布式,高可靠,高可用,高效的數據收集器,一般用於聚合眾多服務器上面的大量日志到某一個數據中心。
Sqoop
Sqoop用於將關系形數據庫(如mysql)或者其它結構化的數據導入到hadoop的生態系統中(HDFS,Hive , HBase),反過來也可以將hadoop的數據導出為對應的結構形式。
Hue
Hue是cdh專門的一套web管理器,它包括3個部分hue ui,hue server,hue db。hue提供所有的cdh組件的shell界面的接口。你可以在hue編寫mr,查看修改hdfs的文件,管理hive的元數據,運行Sqoop,編寫Oozie工作流等大量工作。
HCatalog
HCatalog提供表格數據類型到pig,hive,mr的輸入數據的轉換,HCatalog依賴Hive的元數據存儲系統。通過HCatalog的接口pig,hive,mr自到識別這些輸入數據的架構。
Avro
Avro是一個數據序列化系統。能保存持久化的數據到hdfs,能傳輸並且反序列化為高級數據結構。類似facebook的thrift,它也是提供多語言客戶端支持的。
HttpFS
HttpFS提供REST HTTP API來讀寫hdfs。
Mahout
Mahout是一個編寫基於大數據的機器學習軟件,人工智能程序的協助工具。
Snappy
Snappy是壓縮跟解壓縮工具,它的應用包括將mr的最終輸出結果壓縮起來,Sqoop導入數據的時候也可以使用這個壓縮引擎.
Whirr
Whirr是將hadoop生態系統雲化的一個組件。只需要在Whirr的配置文件里指明你需要的hadoop組件,它能夠用一個命令將一個hadoop生態系統完整的部署到像Amazon EC2這樣的雲服務器中,也能夠一個命令回收這個hadoop生態系統及其使用的資源。intel的hadoop發行版也可以實現類似快捷部署的功能。