前言
本文介紹如何在Ubuntu Kylin操作系統上搭建Hadoop平台。
配置
1. 操作系統: Ubuntu Kylin 14.04
2. 編程語言: JDK 1.8
3. 通信協議: SSH
4. 雲計算項目版本: Hadoop 1.2.1
第一步:安裝最新版本的JDK (若已經安裝過請忽略這一步)
1. 去官網下載JDK1.8並解壓 (當前安裝包為:jdk-8u25-linux-x64.gz)
2. 將解壓后的安裝包復制到 /usr/lib/jvm 目錄下 (jvm目錄需要自行創建)
3. 以管理員方式打開 /etc/profile 文件並在文件底部添加以下代碼:
1 #set Java Environment 2 export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_25 3 export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH" 4 export PATH="$JAVA_HOME/bin:$PATH"
4. 執行以下命令使配置文件立即生效:
1 source /etc/profile
5. 執行以下命令驗證JDK是否安裝成功:
1 java -version
若顯示以下信息表示安裝完成:
第二步:配置SSH免密碼登陸
1. 執行以下命令安裝SSH:
1 sudo app-get install ssh
2. 檢查用戶目錄下是不是有個名為.ssh的隱藏文件夾,沒有的話就自己創建一個。
3. 執行以下命令配置SSH無密碼登陸 (這幾行代碼的功能請參考SSH使用文檔):
1 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 2 cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
4. 執行以下命令驗證SSH是否安裝配置成功:
1 ssh localhost
出現提示輸入yes,若終端顯示以下信息,表示SSH配置成功:
第三步:安裝並運行Hadoop
說明:Hadoop有三種運行方式 - 單機模式,偽分布式和完全分布式。
其中,前兩者主要用於程序的測試和調試,這里要講的是偽分布式的配置,配置完全分布式的方法將在以后講解。
1. 下載並解壓最新版本的Hadoop到當前目錄下 (當前安裝包為:hadoop-1.2.1.tar.gz)
2. 進入conf子目錄中,修改如下配置文件:
a. hadoop-env.sh (設置JAVA路徑)
在末尾添加:
1 export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_25
b. core-site.xml (配置HDFS地址及端口號)
配置為:
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
c. hdfs-site.xml (修改備份方式,單機版本需要將其改為1)
配置為:
1 <?xml version="1.0"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 3 4 <!-- Put site-specific property overrides in this file. --> 5 6 <configuration> 7 <property> 8 <name>dfs.replication</name> 9 <value>1</value> 10 </property> 11 </configuration>
d. mapred-site.xml (設置JobTracker地址及端口)
配置為:
1 <?xml version="1.0"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 3 4 <!-- Put site-specific property overrides in this file. --> 5 6 <configuration> 7 <property> 8 <name>mapred.job.tracker</name> 9 <value>localhost:9001</value> 10 </property> 11 </configuration>
3. 進入Hadoop文件夾執行以下命令以格式化Hadoop文件系統HDFS:
1 bin/hadoop namenode -format
4. 執行以下命令以啟動所有Hadoop進程:
1 bin/start-all.sh
5. 驗證Hadoop是否安裝成功
a. 打開瀏覽器,輸入網址 http://localhost:50030 以查看MapReduce的Web頁面:
b. 打開瀏覽器,輸入網址 http://localhost:50070 以查看HDFS的Web頁面:
如果顯示正常,那么Hadoop環境便搭建好了。
小結
1. 偽分布式的架構,機制和真實分布式其實是一樣的,不過偽分布式中,Master和Slave都是一台機器。
2. 關於真實分布式環境的搭建,將在以后介紹。到時會在虛擬機上組建一個虛擬網絡,跑真·分布式程序。