hadoop2.6.0版本搭建偽分布式環境

本文轉載自查看原文 2015-02-06 15:56 2293

由於個人需要在自己的筆記本上搭建hadoop偽分布環境，為了方便自己使用，如想看機器也看之前的一篇博客：hadoop2.6.0版本集群環境搭建

一台虛擬機，配置信息如下：

內存：1G，cpu：一個core,硬盤：15G

1、修改下主機名為master

sudo vi /etc/sysconfig/network

修改結果后：

重啟電腦后再查看結果：

修改主機名成功

2、修改hosts中的主機名：

修改后：

3、配置SSH

進入.ssh目錄並生成authorized_keys文件：

授權.ssh/文件夾權限為700，authorized_keys文件權限為600(or 644)：

ssh驗證：

4、hadoop安裝：

去官網下載hadoop最新安裝包：http://apache.fayea.com/hadoop/common/hadoop-2.6.0/

下載並解壓后：

修改系統配置文件，修改~/.bash_profile文件，增加HADOPP_HOME的bin文件夾到PATH中，修改后使用source命令使配置文件生效：

在hadoop目錄下創建文件夾：

接下來開始修改hadoop的配置文件，首先進入hadoop2.6配置文件夾：

第一步修改配置文件hadoop-env.sh，加入"JAVA-HOME",如下所示：

指定我們安裝的“JAVA_HOME”：

第二步修改配置文件"yarn-env.sh"，加入"JAVA_HOME",如下所示：

指定我們安裝的“JAVA_HOME”：

第三步修改配置文件“mapred-env.sh”，加入“JAVA_HOME”，如下所示：

指定我們安裝的“JAVA_HOME”：

第四步修改配置文件slaves，如下所示：

設置從節點為master，因為我們是偽分布式，如下所示：

第五步修改配置文件core-site.xml，如下所示：

修改core-site.xml文件后：

目前來說，core-site.xml文件的最小化配置，core-site.xml各項配置可參考：http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/core-default.xml

第六步修改配置文件 hdfs-site.xml，如下所示：

hdfs-site.xml文件修改后：

上述是hdfs-site.xml文件的最小化配置，hdfs-site.xml各項配置可參考：http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

第七步修改配置文件 mapred-site.xml，如下所示：

copy mapred-site.xml.template命名為mapred-site.xml，打開mapred-site.xml，如下所示：

mapred-site.xml 修改后：

上述是mapred-site.xml最小化配置，mapred-site.xml各項配置可參考：http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

第八步配置文件yarn-site.xml，如下所示：

yarn-site.xml修改后：

上述內容是yarn-site.xml的最小化配置，yarn-site文件配置的各項內容可參考：http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

也可以增加spark_shuffle,配置如下
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle,spark_shuffle</value>
</property>

<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
<value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
PS: 當提交hadoop MR 就啟用,mapreduce_shuffle,當提交spark作業就使用spark_shuffle,但個人感覺spark_shuffle 效率一般,shuffle是很大瓶頸,還有如果你使用spark_shuffle 你需要把spark-yarn_2.10-1.4.1.jar 這個jar copy 到HADOOP_HOME/share/hadoop/lib下 ,否則 hadoop 運行報錯 class not find exeception