007 linux環境下的偽分布式環境搭建


本文的配置環境是VMware10+centos2.5。

在學習大數據過程中,首先是要搭建環境,通過實驗,在這里簡短粘貼書寫關於自己搭建大數據偽分布式環境的經驗。

如果感覺有問題,歡迎咨詢評論。

零:下載ruanjian

1.下載

  

 

2.下載網址

  https://archive.apache.org/dist/hadoop/common/ 

 

:偽分布式准備工作

1.規划目錄

  

2.修改目錄所有者和所屬組

  

3.刪除原有的jdk

  

 

4.上傳需要的jdk

    

5.增加jdk 的執行權限

  

 

6.解壓jdk

   

7.修改profileJAVA_HOMEPATH

  

8.使文件生效

  不需要使用root用戶。

   

9.檢驗jdk是否成功

  

  

二:搭建為分布式(主要是namenode與datanode)

1.解壓hadoop

  

2.進入hadoop主目錄

  

3.獲取JAVA_HOME的目錄

  

 

4.*.env.sh

  

 

5.修改hadoop-env.shJAVA_HOME

  

  

6.修改mapred-env.hJAVA_HOME

  雖然官網沒說,但是也需要修改。

  

 

7.修改yarn-env.shJAVA_HOME

  雖然官網沒說,但是也需要修改。

  

 

 8.*-site.xml配置

  

 

9.配置core-site.xml

  8020是交互端口,namenode啟動以后,可以通過瀏覽器進行訪問hdfs文件系統。

  新建一個臨時目錄:

    注意點:sudo chown -R beifeng:beifeng data

  

  配置:

  

 

10.修改slave的配置

  

 

11.修改hdfs.site.xml

   

 

12.執行

  

 

13.檢驗hdfs

  

 

14.格式化hdfs

  對文件操作系統進行格式化。

   

   

 

15.啟動namenode 以及datanode進程

  注意:

    sudo chmod -R a+w hadoop-2.5.0/ 增加權限,因為要產生log文件夾。

  

 

16.查看瀏覽器,方便管理HDFS

  http://linux-hadoop01.ibeifeng.com:50070/

  

 

17.HDFS上新建文件夾

  

   

 

15.HDFS上上傳文件

   

   

16.HDFS上讀取wenjian

   

 

17.HDFS上下載文件到本地

   

 

18.刪除在HDFS上的文件

  bin/hdfs dfs -rm -f core-site.xml

  如果不知道可以使用bin/hdfs dfs ,在確認后就彈出使用方法

 

 

三:繼續搭建偽分布式(YARN部分的搭建)

1.官網

  

 

2.配置yarn-site.xml

   

 

2..配置MapReduce的配置,MapReduce.site.xml

  表示mapreduce將要運行在yarn上

  

 

3.啟動

  sbin/yarn-daemon.sh start resourcemanager

  sbin/yarn-daemon.sh start nodemanager

  

 

4.瀏覽器上觀察

  端口為8088.

   http://linux-hadoop01.ibeifeng.com:8088

 

5.新建將要測試的文件

   

  

 

6.HDFS上新建文件目錄

   

  

 

7.上傳本地的wc.input文件進剛剛新建的目錄

    

  

 

8.yarn上運行計算

  bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount mapreduce/wordcount/input mapreduce/wordcount/output1

   

   

9.查看結果

  bin/hdfs dfs -text mapreduce/wordcount/output1/pa*   

  

  這個時候因為沒有配置歷史服務器,所以在途中的history沒有用。

  

 

 

四:歷史服務器的配置 

1.配置歷史服務器,修改mapred-xite.xml

  歷史服務器可以查看已經完成的MR程序作業記錄。

  默認情況下歷史服務器是不啟動的。

  所以配置在mapred-site.xml中。

  

 

2.啟動服務器

  

 

3.建議歷史服務器在yarn啟動之后緊接着啟動

  sbin/mr-jobhistory-daemon.sh start historyserver

   

 

4.瀏覽器觀察

  web端口是19888.

  再點擊一下剛才的history,這里不需要再次運行mapreduce程序。

  

 

五:日志聚集功能

1.問題由來

  這個log的聚集主要說的是yarn里面的日志功能。

  會將MR程序運行的日志上傳到HDFS上的目錄中,默認會在‘/’下產生一個tmp目錄,這個tmp可以在HDFS的50070上看到,同時這個tmp對用戶是無效的,沒有權限。

  很多mapreduce會對應需要的日志,如果將日志聚集到hdfs上,可以方便的查看。

  19888上的logs:

  

  50070上的tmp

  

 

2.日志聚集功能,修改yarn.site.xml

  

 

3.重新啟動resourcemanager,nodemanager,jobhistory

  

 

6.再次在yarn上運行程序

  

 

7.這時就可以點擊logs,在yarn的管理頁面上觀看日志文件

  

 

8.logs點擊的結果

  

 

但是問題還是沒有完全解決好,有下面的問題。

9.HDFS用戶權限的修改,點擊tmp時,出現的問題效果

  

 

 

10.修改hdfs.xite.xml,使hdfs不在檢查用戶權限

  HDFS上會存在用戶權限檢查。

  

 

11.重新啟動HDFS

  這個時候,其實,yarn也需要關閉,只是在驗證tmp時可以不啟動yarn。

  

 

12.再次點擊tmp,即可進入

  

 

六:靜態用戶名的修改

1.修改靜態用戶名,之前的狀態

  

  

 2.修改core.site.xml

  

 

3.重啟HDFS和YARN

  

 

4.重啟任務

  

 

 

5.這時靜態用戶將會變成設置的用戶

  

 

 

 

 

 

 

    

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM