1.hadoop是什么?
開源的分布式存儲和分布式計算平台.
2.hadoop組成?
HDFS:分布式文件存儲系統,存儲海量數據.
Mapreduce:並行處理框架,實現任務分配和調度.
3.hadoop可以用來做什么?
搭建大型數據倉庫,分析海量日志,存儲,統計等.
4.Zookeeper 分布式協作服務
解決分布式環境下的數據管理:
統一命名,狀態同步,集群管理,配置同步
5.HIVE 數據倉庫(離線分析)
HQL用於運行存儲在Hadoop上的查詢語句,Hive讓不熟悉MapReduce開發人員也能編寫數據查詢語句,然后這
些語句被翻譯為Hadoop上面的MapReduce任務
6.Pig ad-hoc腳本(離線分析)
7.Sqoop 數據ETL/同步工具
用於傳統數據庫和Hadoop之前傳輸數據。數據的導入和導出本質上是
Mapreduce程序,充分利用了MR的並行化和容錯性
8.Flume 日志收集工具
個可擴展、適合復雜環境的海量日志收集系統
9.Mahout 數據挖掘算法庫
經包含了聚類、分類、推薦引擎(協同過濾)和頻繁集挖掘等廣泛使用的數據挖掘方法