hadoop功能与用途


1.hadoop是什么?

开源的分布式存储和分布式计算平台.

2.hadoop组成?

HDFS:分布式文件存储系统,存储海量数据.
Mapreduce:并行处理框架,实现任务分配和调度.

3.hadoop可以用来做什么?

搭建大型数据仓库,分析海量日志,存储,统计等.

4.Zookeeper 分布式协作服务

解决分布式环境下的数据管理:
统一命名,状态同步,集群管理,配置同步

5.HIVE 数据仓库(离线分析)

HQL用于运行存储在Hadoop上的查询语句,Hive让不熟悉MapReduce开发人员也能编写数据查询语句,然后这
些语句被翻译为Hadoop上面的MapReduce任务

6.Pig ad-hoc脚本(离线分析)

7.Sqoop 数据ETL/同步工具

用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是
Mapreduce程序,充分利用了MR的并行化和容错性

8.Flume 日志收集工具

个可扩展、适合复杂环境的海量日志收集系统

9.Mahout 数据挖掘算法库

经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM