hadoop2.6.0版本搭建偽分布式環境


由於個人需要在自己的筆記本上搭建hadoop偽分布環境,為了方便自己使用,如想看機器也看之前的一篇博客:hadoop2.6.0版本集群環境搭建

一台虛擬機,配置信息如下:


內存:1G,cpu:一個core,硬盤:15G

1、修改下主機名為master

sudo vi /etc/sysconfig/network


修改結果后:


重啟電腦后再查看結果:


修改主機名成功

2、修改hosts中的主機名:



修改后:




3、配置SSH


進入.ssh目錄並生成authorized_keys文件:


授權.ssh/文件夾權限為700,authorized_keys文件權限為600(or 644):


ssh驗證:



4、hadoop安裝:

去官網下載hadoop最新安裝包:http://apache.fayea.com/hadoop/common/hadoop-2.6.0/

下載並解壓后:



修改系統配置文件,修改~/.bash_profile文件,增加HADOPP_HOME的bin文件夾到PATH中,修改后使用source命令使配置文件生效:



在hadoop目錄下創建文件夾:



接下來開始修改hadoop的配置文件,首先進入hadoop2.6配置文件夾:


第一步修改配置文件hadoop-env.sh,加入"JAVA-HOME",如下所示:


指定我們安裝的“JAVA_HOME”:



第二步修改配置文件"yarn-env.sh",加入"JAVA_HOME",如下所示:


指定我們安裝的“JAVA_HOME”:


第三步 修改配置文件“mapred-env.sh”,加入“JAVA_HOME”,如下所示:


指定我們安裝的“JAVA_HOME”:



第四步 修改配置文件slaves,如下所示:


設置從節點為master,因為我們是偽分布式,如下所示:


第五步 修改配置文件core-site.xml,如下所示:


修改core-site.xml文件后:


目前來說,core-site.xml文件的最小化配置,core-site.xml各項配置可參考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/core-default.xml

第六步 修改配置文件 hdfs-site.xml,如下所示:


hdfs-site.xml文件修改后:


上述是hdfs-site.xml文件的最小化配置,hdfs-site.xml各項配置可參考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml


第七步 修改配置文件 mapred-site.xml,如下所示:

copy mapred-site.xml.template命名為mapred-site.xml,打開mapred-site.xml,如下所示:


mapred-site.xml 修改后:


上述是mapred-site.xml最小化配置,mapred-site.xml各項配置可參考:http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml


第八步 配置文件yarn-site.xml,如下所示:


yarn-site.xml修改后:


上述內容是yarn-site.xml的最小化配置,yarn-site文件配置的各項內容可參考:http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

也可以增加spark_shuffle,配置如下
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle,spark_shuffle</value>
</property>


<property>
  <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
  <value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
PS: 當提交hadoop MR 就啟用,mapreduce_shuffle,當提交spark作業 就使用spark_shuffle,但個人感覺spark_shuffle 效率一般,shuffle是很大瓶頸,還有 如果你使用spark_shuffle 你需要把spark-yarn_2.10-1.4.1.jar 這個jar copy 到HADOOP_HOME/share/hadoop/lib下 ,否則 hadoop 運行報錯 class not find exeception

5、啟動並驗證hadoop偽分布式

第一步:格式化hdfs文件系統:




第二步:進入sbin中啟動hdfs,執行如下命令:


此刻我們發現在master上啟動了NameNode、DataNode、SecondaryNameNode

此刻通過web控制台查看hdfs,http://master:50070/ 





點擊“Live Nodes”,查看一下其信息:


第三步:啟動yarn


使用jps命令可以發現master機器啟動了ResourceManager進程


PS:我們上傳一個文件到hdfs吧:



hadoop web控制台頁面的端口整理:

50070:hdfs文件管理

8088:ResourceManager

8042:NodeManager

19888:JobHistory(使用“mr-jobhistory-daemon.sh”來啟動JobHistory Server)


版權聲明:本文為博主原創文章,未經博主允許不得轉載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM