一、准備
1.1創建hadoop用戶
$ sudo useradd -m hadoop -s /bin/bash #創建hadoop用戶,並使用/bin/bash作為shell $ sudo passwd hadoop #為hadoop用戶設置密碼,之后需要連續輸入兩次密碼 $ sudo adduser hadoop sudo #為hadoop用戶增加管理員權限 $ su - hadoop #切換當前用戶為用戶hadoop $ sudo apt-get update #更新hadoop用戶的apt,方便后面的安裝
1.2安裝SSH,設置SSH無密碼登陸
$ sudo apt-get install openssh-server #安裝SSH server $ ssh localhost #登陸SSH,第一次登陸輸入yes $ exit #退出登錄的ssh localhost $ cd ~/.ssh/ #如果沒法進入該目錄,執行一次ssh localhost $ ssh-keygen -t rsa
輸入完 $ ssh-keygen -t rsa 語句以后,需要連續敲擊三次回車,如下圖:
其中,第一次回車是讓KEY存於默認位置,以方便后續的命令輸入。第二次和第三次是確定passphrase,相關性不大。兩次回車輸入完畢以后,如果出現類似於下圖所示的輸出,即成功:
之后再輸入:
$ cat ./id_rsa.pub >> ./authorized_keys #加入授權 $ ssh localhost #此時已不需密碼即可登錄localhost,並可見下圖。如果失敗則可以搜索SSH免密碼登錄來尋求答案
二、安裝jdk1.7
首先在oracle官網下載jdk1.7 http://www.oracle.com/technetwork/java/javase/downloads/index.html 接下來進行安裝與環境變量配置,根據個人電腦系統選擇對應版本,我選的是jdk-7u80-linux-x64.tar.gz
$ mkdir /usr/lib/jvm #創建jvm文件夾 $ sudo tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/lib #/ 解壓到/usr/lib/jvm目錄下 $ cd /usr/lib/jvm #進入該目錄 $ mv jdk1.7.0_80 java #重命名為java $ vi ~/.bashrc #給JDK配置環境變量
注:其中如果權限不夠,無法在相關目錄下創建jvm文件夾,那么可以使用 $ sudo -i 語句進入root賬戶來創建文件夾。
另外推薦使用vim來編輯環境變量,即最后一句使用指令
$ vim ~/.bashrc
如果沒有vim,可以使用:
$sudo apt-get install vim
來進行下載。
在.bashrc文件添加如下指令:
export JAVA_HOME=/usr/lib/jvm/java export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH
在文件修改完畢以后,輸入代碼:
$ source ~/.bashrc #使新配置的環境變量生效 $ java -version #檢測是否安裝成功,查看java版本
如果出現如下圖所示的內容,即為安裝成功
注:如果各位不想一個一個的敲擊,可以復制黏貼,但因為vim不支持系統粘貼板,所以需要先下載相關插件vim-gnome
sudo apt-get install vim-gnome
然后復制相關代碼,光標移到指定位置,使用指令 "+p,即可復制,注意 " 也是需要敲擊的內容,即一共有 " 、+、p 三個操作符需要敲入
三、安裝hadoop-2.6.0
先下載hadoop-2.6.0.tar.gz,鏈接如下:
http://mirrors.hust.edu.cn/apache/hadoop/common/
下面進行安裝:
$ sudo tar -zxvf hadoop-2.6.0.tar.gz -C /usr/local #解壓到/usr/local目錄下 $ cd /usr/local $ sudo mv hadoop-2.6.0 hadoop #重命名為hadoop $ sudo chown -R hadoop ./hadoop #修改文件權限
給hadoop配置環境變量,將下面代碼添加到.bashrc文件:
export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
同樣,執行source ~./bashrc使設置生效,並查看hadoop是否安裝成功
四、偽分布式配置
Hadoop 可以在單節點上以偽分布式的方式運行,Hadoop 進程以分離的 Java 進程來運行,節點既作為 NameNode 也作為 DataNode,同時,讀取的是 HDFS 中的文件。Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/ 中,偽分布式需要修改2個配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每個配置以聲明 property 的 name 和 value 的方式來實現。首先將jdk1.7的路徑添(export JAVA_HOME=/usr/lib/jvm/java )加到hadoop-env.sh文件
接下來修改core-site.xml文件:
<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
接下來修改配置文件 hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>
Hadoop 的運行方式是由配置文件決定的(運行 Hadoop 時會讀取配置文件),因此如果需要從偽分布式模式切換回非分布式模式,需要刪除 core-site.xml 中的配置項。此外,偽分布式雖然只需要配置 fs.defaultFS 和 dfs.replication 就可以運行(可參考官方教程),不過若沒有配置 hadoop.tmp.dir 參數,則默認使用的臨時目錄為 /tmp/hadoo-hadoop,而這個目錄在重啟時有可能被系統清理掉,導致必須重新執行 format 才行。所以我們進行了設置,同時也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否則在接下來的步驟中可能會出錯。
配置完成后,執行 NameNode 的格式化
$ ./bin/hdfs namenode -format
啟動namenode和datanode進程,並查看啟動結果
$ ./sbin/start-dfs.sh $ jps
啟動完成后,可以通過命令 jps 來判斷是否成功啟動,若成功啟動則會列出如下進程: “NameNode”、”DataNode” 和 “SecondaryNameNode”
此時也有可能出現要求輸入localhost密碼的情況 ,如果此時明明輸入的是正確的密碼卻仍無法登入,其原因是由於如果不輸入用戶名的時候默認的是root用戶,但是安全期間ssh服務默認沒有開root用戶的ssh權限
輸入代碼:
$vim /etc/ssh/sshd_config
檢查PermitRootLogin 后面是否為yes,如果不是,則將該行代碼 中PermitRootLogin 后面的內容刪除,改為yes,保存。之后輸入下列代碼重啟SSH服務:
$ /etc/init.d/sshd restart
即可正常登入(免密碼登錄參考第一章)
成功啟動后,可以訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,還可以在線查看 HDFS 中的文件。
至此,hadoop的安裝就已經完成啦!enjoy it!