ubuntu + hadoop2.5.2分布式環境配置

本文轉載自查看原文 2014-12-01 23:40 12163 LANG.JAVA/ hadoop

ubuntu + hadoop2.5.2分布式環境配置

我之前有詳細寫過hadoop-0.20.203.0rc1版本的環境搭建

hadoop學習筆記——環境搭建 http://www.cnblogs.com/huligong1234/p/3533382.html

本篇部分細節就不多說。

一、基礎環境准備
系統：(VirtualBox) ubuntu-12.04.2-desktop-i386.iso
hadoop版本：hadoop-2.5.2
jdk版本：jdk-6u26-linux-i586.bin

1.三台測試集群，一個master(ubuntu-V01),兩個slave(ubuntu-V02,ubuntu-V03)
/etc/hosts
192.168.1.112 ubuntu-V01
192.168.1.113 ubuntu-V02
192.168.1.114 ubuntu-V03

注意不要保留127.0.0.1 localhost

配置同步到其他兩台機器
scp /etc/hosts root@192.168.1.113:/etc/hosts
scp /etc/hosts root@192.168.1.114:/etc/hosts

2. 設置linux上ssh是用戶可以自動登錄
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3.java環境配置

略，當前已配好，JAVA_HOME為/usr/lib/jvm/jdk1.6.0_26

二、下載解壓hadoop-2.5.2.tar.gz

hadoop@ubuntu-V01:~/data$ pwd
/home/hadoop/data
hadoop@ubuntu-V01:~/data$ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.5.2/hadoop-2.5.2.tar.gz
hadoop@ubuntu-V01:~/data$tar zxvf hadoop-2.5.2.tar.gz

三、配置環境變量
hadoop@ubuntu-V01:~/data$gedit /etc/profile
追加內容如下：

#HADOOP VARIABLES START
export HADOOP_INSTALL=/home/hadoop/data/hadoop-2.5.2
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP VARIABLES END

使配置生效
hadoop@ubuntu-V01:~/data$source /etc/profile

同時需要修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/jdk1.6.0_26

四、修改$HADOOP_HOME/etc/hadoop/core-site.xml
添加如下內容：
<property>
<name>fs.default.name</name>
<value>hdfs://ubuntu-V01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/data/hadoop-2.5.2/hadoop-${user.name}</value>
</property>

五、修改$HADOOP_HOME/etc/hadoop/yarn-site.xml
添加如下內容：
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>ubuntu-V01</value>
</property>

更多yarn-site.xml參數配置可參考：
http://hadoop.apache.org/docs/r2.5.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

六、修改$HADOOP_HOME/etc/hadoop/mapred-site.xml
默認沒有mapred-site.xml文件，copy mapred-site.xml.template 一份為 mapred-site.xml即可
#cp etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
添加如下內容：
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<final>true</final>
</property>

七、配置hdfs-site.xml (這里可以不配，采用默認參數)
/usr/local/hadoop/etc/hadoop/hdfs-site.xml
用來配置集群中每台主機都可用，指定主機上作為namenode和datanode的目錄。

<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/data/hadoop-2.5.2/name1,/home/hadoop/data/hadoop-2.5.2/name2</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/data/hadoop-2.5.2/data1,/home/hadoop/data/hadoop-2.5.2/data2</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>

八、配置salves
告訴hadoop 其他從節點，這樣，只要主節點啟動，他會自動啟動其他機器上的nameNode dataNode 等等
編輯 $HADOOP_HOME/etc/hadoop/slaves
內容如下：
ubuntu-V02
ubuntu-V03

九、同步同步該文件夾到其他各個從主機上即可

因為我們使用ssh免登陸不需要使用密碼
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$scp -r /home/hadoop/data/hadoop-2.5.2 hadoop@192.168.1.113:/home/hadoop/data/hadoop-2.5.2
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$scp -r /home/hadoop/data/hadoop-2.5.2 hadoop@192.168.1.114:/home/hadoop/data/hadoop-2.5.2

十、格式化hdfs
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$./bin/hdfs namenode -format

十一、啟動hadoop集群
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$./sbin/start-dfs.sh
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$./sbin/start-yarn.sh

十二、瀏覽器查看
瀏覽器打開 http://ubuntu-V01:50070/，會看到hdfs管理頁面
瀏覽器打開 http://ubuntu-V01:8088/，會看到hadoop進程管理頁面
瀏覽器打開 http://ubuntu-v01:8088/cluster 查看cluster情況

十三、驗證（WordCount驗證）
1.dfs上創建input目錄
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop fs -mkdir -p input

2.把hadoop目錄下的README.txt拷貝到dfs新建的input里
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop fs -copyFromLocal README.txt input

3.運行WordCount
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.5.2-sources.jar org.apache.hadoop.examples.WordCount input output

4.運行完畢后，查看單詞統計結果
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop fs -cat output/*

假如程序的輸出路徑為output，如果該文件夾已經存在,先刪除
hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop dfs -rmr output

參考資料：

Ubuntu14.04下安裝Hadoop2.4.0 （單機模式）
http://www.cnblogs.com/kinglau/p/3794433.html

Ubuntu14.04下安裝Hadoop2.4.0 （偽分布模式）
http://www.cnblogs.com/kinglau/p/3796164.html

偽分布模式下執行wordcount實例時報錯解決辦法
http://www.cnblogs.com/kinglau/p/3364928.html

Eclipse下搭建Hadoop2.4.0開發環境
http://www.cnblogs.com/kinglau/p/3802705.html

Hadoop學習三十：Win7 Eclipse調試Centos Hadoop2.2-Mapreduce
http://zy19982004.iteye.com/blog/2024467

hadoop2.5.0 centOS系列分布式的安裝部署
http://my.oschina.net/yilian/blog/310189

Centos6.5源碼編譯安裝Hadoop2.5.1
http://www.myhack58.com/Article/sort099/sort0102/2014/54025.htm

Hadoop MapReduce兩種常見的容錯場景分析
http://www.chinacloud.cn/show.aspx?id=15793&cid=17

hadoop 2.2.0集群安裝
http://blog.csdn.net/bluishglc/article/details/24591185

Apache Hadoop 2.2.0 HDFS HA + YARN多機部署
http://blog.csdn.net/u010967382/article/details/20380387

Hadoop集群配置（最全面總結）
http://blog.csdn.net/hguisu/article/details/7237395

Hadoop hdfs-site.xml 配置項清單
http://he.iori.blog.163.com/blog/static/6955953520138107638208/
http://slaytanic.blog.51cto.com/2057708/1101111

Hadoop三種安裝模式
http://blog.csdn.net/liumm0000/article/details/13408855

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop2.7.3分布式集群安裝 Hadoop2.2.0分布式安裝配置詳解[2/3] Hadoop2.5.2偽分布安裝【圖文並茂】 Spark 1.6.1分布式集群環境搭建 Ubuntu16.04 下 hadoop的安裝與配置（偽分布式環境） Ubuntu16.04 下 hadoop的安裝與配置（偽分布式環境） Ubuntu16.04下偽分布式環境搭建之hadoop、jdk、Hbase、phoenix的安裝與配置搭建hadoop、hdfs環境--ubuntu（完全分布式） ubuntu1.4搭建zookeeper3.5.2分布式集群 Linux下配置Hadoop偽分布式環境