hadoop功能與用途


1.hadoop是什么?

開源的分布式存儲和分布式計算平台.

2.hadoop組成?

HDFS:分布式文件存儲系統,存儲海量數據.
Mapreduce:並行處理框架,實現任務分配和調度.

3.hadoop可以用來做什么?

搭建大型數據倉庫,分析海量日志,存儲,統計等.

4.Zookeeper 分布式協作服務

解決分布式環境下的數據管理:
統一命名,狀態同步,集群管理,配置同步

5.HIVE 數據倉庫(離線分析)

HQL用於運行存儲在Hadoop上的查詢語句,Hive讓不熟悉MapReduce開發人員也能編寫數據查詢語句,然后這
些語句被翻譯為Hadoop上面的MapReduce任務

6.Pig ad-hoc腳本(離線分析)

7.Sqoop 數據ETL/同步工具

用於傳統數據庫和Hadoop之前傳輸數據。數據的導入和導出本質上是
Mapreduce程序,充分利用了MR的並行化和容錯性

8.Flume 日志收集工具

個可擴展、適合復雜環境的海量日志收集系統

9.Mahout 數據挖掘算法庫

經包含了聚類、分類、推薦引擎(協同過濾)和頻繁集挖掘等廣泛使用的數據挖掘方法


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM