本文的配置環境是VMware10+centos2.5。
在學習大數據過程中,首先是要搭建環境,通過實驗,在這里簡短粘貼書寫關於自己搭建大數據偽分布式環境的經驗。
如果感覺有問題,歡迎咨詢評論。
零:下載ruanjian
1.下載
2.下載網址
https://archive.apache.org/dist/hadoop/common/
一:偽分布式准備工作
1.規划目錄
2.修改目錄所有者和所屬組
3.刪除原有的jdk
4.上傳需要的jdk包
5.增加jdk 的執行權限
6.解壓jdk
7.修改profile的JAVA_HOME,PATH
8.使文件生效
不需要使用root用戶。
9.檢驗jdk是否成功
二:搭建為分布式(主要是namenode與datanode)
1.解壓hadoop
2.進入hadoop主目錄
3.獲取JAVA_HOME的目錄
4.*.env.sh
5.修改hadoop-env.sh的JAVA_HOME
6.修改mapred-env.h的JAVA_HOME
雖然官網沒說,但是也需要修改。
7.修改yarn-env.sh的JAVA_HOME
雖然官網沒說,但是也需要修改。
8.*-site.xml配置
9.配置core-site.xml
8020是交互端口,namenode啟動以后,可以通過瀏覽器進行訪問hdfs文件系統。
新建一個臨時目錄:
注意點:sudo chown -R beifeng:beifeng data
配置:
10.修改slave的配置
11.修改hdfs.site.xml
12.執行
13.檢驗hdfs
14.格式化hdfs
對文件操作系統進行格式化。
15.啟動namenode 以及datanode進程
注意:
sudo chmod -R a+w hadoop-2.5.0/ 增加權限,因為要產生log文件夾。
16.查看瀏覽器,方便管理HDFS
http://linux-hadoop01.ibeifeng.com:50070/
17.在HDFS上新建文件夾
15.在HDFS上上傳文件
16.在HDFS上讀取wenjian
17.在HDFS上下載文件到本地
18.刪除在HDFS上的文件
bin/hdfs dfs -rm -f core-site.xml
如果不知道可以使用bin/hdfs dfs ,在確認后就彈出使用方法
三:繼續搭建偽分布式(YARN部分的搭建)
1.官網
2.配置yarn-site.xml
2..配置MapReduce的配置,MapReduce.site.xml
表示mapreduce將要運行在yarn上
3.啟動
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
4.瀏覽器上觀察
端口為8088.
http://linux-hadoop01.ibeifeng.com:8088
5.新建將要測試的文件
6.在HDFS上新建文件目錄
7.上傳本地的wc.input文件進剛剛新建的目錄
8.在yarn上運行計算
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount mapreduce/wordcount/input mapreduce/wordcount/output1
9.查看結果
bin/hdfs dfs -text mapreduce/wordcount/output1/pa*
這個時候因為沒有配置歷史服務器,所以在途中的history沒有用。
四:歷史服務器的配置
1.配置歷史服務器,修改mapred-xite.xml
歷史服務器可以查看已經完成的MR程序作業記錄。
默認情況下歷史服務器是不啟動的。
所以配置在mapred-site.xml中。
2.啟動服務器
3.建議歷史服務器在yarn啟動之后緊接着啟動
sbin/mr-jobhistory-daemon.sh start historyserver
4.瀏覽器觀察
web端口是19888.
再點擊一下剛才的history,這里不需要再次運行mapreduce程序。
五:日志聚集功能
1.問題由來
這個log的聚集主要說的是yarn里面的日志功能。
會將MR程序運行的日志上傳到HDFS上的目錄中,默認會在‘/’下產生一個tmp目錄,這個tmp可以在HDFS的50070上看到,同時這個tmp對用戶是無效的,沒有權限。
很多mapreduce會對應需要的日志,如果將日志聚集到hdfs上,可以方便的查看。
19888上的logs:
50070上的tmp
2.日志聚集功能,修改yarn.site.xml
3.重新啟動resourcemanager,nodemanager,jobhistory
6.再次在yarn上運行程序
7.這時就可以點擊logs,在yarn的管理頁面上觀看日志文件
8.logs點擊的結果
但是問題還是沒有完全解決好,有下面的問題。
9.HDFS用戶權限的修改,點擊tmp時,出現的問題效果
10.修改hdfs.xite.xml,使hdfs不在檢查用戶權限
HDFS上會存在用戶權限檢查。
11.重新啟動HDFS
這個時候,其實,yarn也需要關閉,只是在驗證tmp時可以不啟動yarn。
12.再次點擊tmp,即可進入
六:靜態用戶名的修改
1.修改靜態用戶名,之前的狀態
2.修改core.site.xml
3.重啟HDFS和YARN
4.重啟任務
5.這時靜態用戶將會變成設置的用戶