參考網頁:http://vampire1126.iteye.com/blog/891693
http://vampire1126.iteye.com/blog/891735
基本上是參照這個博客做下來的,然后自己實現了下。
-----------------------------------------------------正式工作------------------------------------------------------
安裝軟件:
VMware workstation 8
Ubuntu 10.04LTS
總體步驟:
1.安裝Ubuntu,在Ubuntu中裝好jdk,hadoop和ssh-server。
2.配置jdk環境變量,配置hadoop,配置ssh-key
3.單機環境運行hadoop監測是否成功
4.克隆單機hadoop環境的ubuntu,將兩台ubuntu加入一個局域網
5.配置master和slave的ip,並測試是否ping通
6.在所有結點上配置相關master和slave信息
7.在slave中拷貝master和JobTracker的公鑰,在JobTracker上拷貝master公約
8.啟動hadoop,並用wordcount程序測試是否搭建成功
詳細步驟:
1. 利用VMware安裝虛擬機Ubuntu,我選擇的是10.04,因為10.04是長效支持版本(long-term supported)。常規的安裝過程,不累述。
2. 進入Ubuntu之后,選擇軟件源為中國的源,這里我選擇了163的源。
3. 安裝JDK
a) 在usr下新建Java文件夾,並拷貝下載好的jdk
b) 改變Java目錄為可執行,進入Java這個目錄,並執行安裝。
4. 安裝hadoop
下載hadoop並將其拷貝到usr/local文件夾下,並解壓縮,然后將帶版本號的文件夾重命名為hadoop。對應命令如下:
5. 創建hadoop的用戶組,並在hadoop用戶組中添加hadoop用戶。
6. 為添加的用戶提供root權限。
7. 配置Java變量
打開etc下的profile文件,在文件的后面加上環境變量。
改好后,重新啟動虛擬機。
8. 重啟后使用hadoop用戶登錄
檢測java環境變量是否配置好
9. 安裝ssh-server。我第一次嘗試的時候是在ubuntu11.10,需要事先update一下apt-get
創建一個rsa的ssh-key
將生成的ssh-key加入到信任列表:
10. 配置hadoop
為hadoop添加java環境變量:
配置core-site.xml
(上圖是我已經配置好集群之后的截圖,如果需要是單機環境,將master換為localhost。)
配置mapred-site.xml
(上圖是我已經配置好集群之后的截圖,如果需要是單機環境,將master換為localhost。)
11. 運行測試
格式化namenode
為hadoop用戶賦予hadoop文件夾的使用權限
啟動hadoop
利用jps查看已經啟動的服務
12. 運行wordcount程序
在tmp文件夾下添加一個文件作為測試:
將其上傳到hdf文件系統中:
執行wordcount程序,並將結果上送至result
查看result的結果:
統計結果:
(如果還需要繼續執行其余程序,應該將輸出結果放到其他文件夾,否則會出現fileAlreadyExist的錯誤)
----------------------------------------------至此,單機模式已經匹配完成------------------------------
13. 克隆單機配置好hadoop環境的ubuntu
在VM的library中的Ubuntu點擊右鍵,選擇manage中的clone,然后按照提示做一個完整的克隆。(虛擬機需要在關閉狀態)
14. 將兩台Ubuntu加入到一個局域網中。
在虛擬機上點擊右鍵,選擇setting,點擊Network Adapter,兩台都選擇同一個custom模式下同一個虛擬局域網。
15. 設置為其中一台為Master(因為在虛擬機中,因此隨便選一台即可,之后不要混淆,實際中應選取性能強勁的為Master),極為UbuntuM,另一台為UbuntuS(Ubuntu Slave)。
分別配置兩者的IP地址:
並測試能否ping通過:
Slave ping的地址是192.168.1.10
16. 在所有結點上,配置/usr/local/Hadoop,以下是配置好的截圖,配置過程只需要用gedit或者vi打開該文件並配置即可。
配置hosts
分別用vi打開下面畫線的文件,添加內容或者修改內容,添加和修改的內容用黃線划出
配置hdfs-sites文件:
17. 在slave上拷貝master的密鑰
將這些密鑰添加到信任列表
18.在JobTracker上拷貝master的公鑰並添加到信任列表
19.刪除/home/hadoop下的tmp文件夾(對所有結點)
20.在master上格式化namenode
21. 啟動hadoop
利用jps查看已經啟動的服務
Master:
Slave:
22.在master上查看系統狀態
23.按照單機模式,利用wordcount,測試成功。
-----------------------------集群模式搭建成功---------------------