本文的配置環境是VMware10+centos2.5。
在學習大數據過程中,首先是要搭建環境,通過實驗,在這里簡短粘貼書寫關於自己搭建大數據偽分布式環境的經驗。
如果感覺有問題,歡迎咨詢評論。
零:下載ruanjian
1.下載

2.下載網址
https://archive.apache.org/dist/hadoop/common/
一:偽分布式准備工作
1.規划目錄

2.修改目錄所有者和所屬組

3.刪除原有的jdk

4.上傳需要的jdk包

5.增加jdk 的執行權限

6.解壓jdk

7.修改profile的JAVA_HOME,PATH

8.使文件生效
不需要使用root用戶。

9.檢驗jdk是否成功

二:搭建為分布式(主要是namenode與datanode)
1.解壓hadoop

2.進入hadoop主目錄

3.獲取JAVA_HOME的目錄

4.*.env.sh

5.修改hadoop-env.sh的JAVA_HOME

6.修改mapred-env.h的JAVA_HOME
雖然官網沒說,但是也需要修改。

7.修改yarn-env.sh的JAVA_HOME
雖然官網沒說,但是也需要修改。

8.*-site.xml配置

9.配置core-site.xml
8020是交互端口,namenode啟動以后,可以通過瀏覽器進行訪問hdfs文件系統。
新建一個臨時目錄:
注意點:sudo chown -R beifeng:beifeng data

配置:

10.修改slave的配置

11.修改hdfs.site.xml

12.執行

13.檢驗hdfs

14.格式化hdfs
對文件操作系統進行格式化。


15.啟動namenode 以及datanode進程
注意:
sudo chmod -R a+w hadoop-2.5.0/ 增加權限,因為要產生log文件夾。

16.查看瀏覽器,方便管理HDFS
http://linux-hadoop01.ibeifeng.com:50070/

17.在HDFS上新建文件夾


15.在HDFS上上傳文件


16.在HDFS上讀取wenjian

17.在HDFS上下載文件到本地

18.刪除在HDFS上的文件
bin/hdfs dfs -rm -f core-site.xml
如果不知道可以使用bin/hdfs dfs ,在確認后就彈出使用方法
三:繼續搭建偽分布式(YARN部分的搭建)
1.官網

2.配置yarn-site.xml

2..配置MapReduce的配置,MapReduce.site.xml
表示mapreduce將要運行在yarn上

3.啟動
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager

4.瀏覽器上觀察
端口為8088.
http://linux-hadoop01.ibeifeng.com:8088
5.新建將要測試的文件


6.在HDFS上新建文件目錄


7.上傳本地的wc.input文件進剛剛新建的目錄


8.在yarn上運行計算
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount mapreduce/wordcount/input mapreduce/wordcount/output1


9.查看結果
bin/hdfs dfs -text mapreduce/wordcount/output1/pa*

這個時候因為沒有配置歷史服務器,所以在途中的history沒有用。

四:歷史服務器的配置
1.配置歷史服務器,修改mapred-xite.xml
歷史服務器可以查看已經完成的MR程序作業記錄。
默認情況下歷史服務器是不啟動的。
所以配置在mapred-site.xml中。

2.啟動服務器

3.建議歷史服務器在yarn啟動之后緊接着啟動
sbin/mr-jobhistory-daemon.sh start historyserver

4.瀏覽器觀察
web端口是19888.
再點擊一下剛才的history,這里不需要再次運行mapreduce程序。

五:日志聚集功能
1.問題由來
這個log的聚集主要說的是yarn里面的日志功能。
會將MR程序運行的日志上傳到HDFS上的目錄中,默認會在‘/’下產生一個tmp目錄,這個tmp可以在HDFS的50070上看到,同時這個tmp對用戶是無效的,沒有權限。
很多mapreduce會對應需要的日志,如果將日志聚集到hdfs上,可以方便的查看。
19888上的logs:

50070上的tmp

2.日志聚集功能,修改yarn.site.xml

3.重新啟動resourcemanager,nodemanager,jobhistory

6.再次在yarn上運行程序

7.這時就可以點擊logs,在yarn的管理頁面上觀看日志文件

8.logs點擊的結果

但是問題還是沒有完全解決好,有下面的問題。
9.HDFS用戶權限的修改,點擊tmp時,出現的問題效果

10.修改hdfs.xite.xml,使hdfs不在檢查用戶權限
HDFS上會存在用戶權限檢查。

11.重新啟動HDFS
這個時候,其實,yarn也需要關閉,只是在驗證tmp時可以不啟動yarn。

12.再次點擊tmp,即可進入

六:靜態用戶名的修改
1.修改靜態用戶名,之前的狀態

2.修改core.site.xml

3.重啟HDFS和YARN

4.重啟任務

5.這時靜態用戶將會變成設置的用戶

