2大数据处理架构Hadoop


2.1概述

2.1.1Hadoop简介

  • Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
  • Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
  • Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce
  • Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
  • 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop

2.1.2Hadoop发展简史

 

 

2.1.3Hadoop的特性

 

   

2.1.4Hadoop的应用现状

 

 

2.2Hadoop项目结构

 

 

 

2.3Hadoop的安装与使用

2.3.1Hadoop安装之前的预备知识

安装参考: http://dblab.xmu.edu.cn/blog/285/

 

 

2.3.2安装Linux虚拟机

2.3.3安装双操作系统

2.3.4Hadoop的安装与使用

参考:http://dblab.xmu.edu.cn/blog/install-hadoop/

  • 创建hadoop用户

  • SSH登陆权限设置

 

 

  • 安装Java环境

  • 单机安装配置

  • 伪分布式安装配置

 

2.4Hadoop集群的部署与使用

2.4.1集群节点类型

  

2.4.2集群硬件配置

 

2.4.3集群规模

 

2.4.4集群网络拓扑

 

 

  

2.4.5集群的建立与安装

 

   

2.4.6集群基准测试

 

    

2.4.7在云计算环境中使用Hadoop

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM