Ubuntu16.04 下 hadoop的安裝與配置(偽分布式環境)


一、准備

1.1創建hadoop用戶

$ sudo useradd -m hadoop -s /bin/bash  #創建hadoop用戶,並使用/bin/bash作為shell
$ sudo passwd hadoop                   #為hadoop用戶設置密碼,之后需要連續輸入兩次密碼
$ sudo adduser hadoop sudo             #為hadoop用戶增加管理員權限
$ su - hadoop                          #切換當前用戶為用戶hadoop
$ sudo apt-get update                  #更新hadoop用戶的apt,方便后面的安裝

 

1.2安裝SSH,設置SSH無密碼登陸

$ sudo apt-get install openssh-server   #安裝SSH server
$ ssh localhost                         #登陸SSH,第一次登陸輸入yes
$ exit                                  #退出登錄的ssh localhost
$ cd ~/.ssh/                            #如果沒法進入該目錄,執行一次ssh localhost
$ ssh-keygen -t rsa  

輸入完  $ ssh-keygen -t rsa 語句以后,需要連續敲擊三次回車,如下圖:

其中,第一次回車是讓KEY存於默認位置,以方便后續的命令輸入。第二次和第三次是確定passphrase,相關性不大。兩次回車輸入完畢以后,如果出現類似於下圖所示的輸出,即成功:

之后再輸入:

$ cat ./id_rsa.pub >> ./authorized_keys #加入授權
$ ssh localhost                         #此時已不需密碼即可登錄localhost,並可見下圖。如果失敗則可以搜索SSH免密碼登錄來尋求答案

 

二、安裝jdk1.7

首先在oracle官網下載jdk1.7 http://www.oracle.com/technetwork/java/javase/downloads/index.html 接下來進行安裝與環境變量配置,根據個人電腦系統選擇對應版本,我選的是jdk-7u80-linux-x64.tar.gz

 
        

 

$ mkdir /usr/lib/jvm                           #創建jvm文件夾
$ sudo tar zxvf jdk-7u80-linux-x64.tar.gz  -C /usr/lib #/ 解壓到/usr/lib/jvm目錄下
$ cd /usr/lib/jvm                                 #進入該目錄
$ mv  jdk1.7.0_80 java                         #重命名為java
$ vi ~/.bashrc                                 #給JDK配置環境變量

注:其中如果權限不夠,無法在相關目錄下創建jvm文件夾,那么可以使用 $ sudo -i  語句進入root賬戶來創建文件夾。

另外推薦使用vim來編輯環境變量,即最后一句使用指令

$ vim ~/.bashrc 

如果沒有vim,可以使用:

$sudo apt-get install vim

來進行下載。

 

 
        

 

 在.bashrc文件添加如下指令:

export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

 

在文件修改完畢以后,輸入代碼:

$ source ~/.bashrc                       #使新配置的環境變量生效
$ java -version                          #檢測是否安裝成功,查看java版本

如果出現如下圖所示的內容,即為安裝成功

 

 

注:如果各位不想一個一個的敲擊,可以復制黏貼,但因為vim不支持系統粘貼板,所以需要先下載相關插件vim-gnome

sudo apt-get install vim-gnome

然后復制相關代碼,光標移到指定位置,使用指令 "+p,即可復制,注意 " 也是需要敲擊的內容,即一共有 " 、+、p 三個操作符需要敲入

 

三、安裝hadoop-2.6.0

先下載hadoop-2.6.0.tar.gz,鏈接如下: 
http://mirrors.hust.edu.cn/apache/hadoop/common/

下面進行安裝:

$ sudo tar -zxvf  hadoop-2.6.0.tar.gz -C /usr/local    #解壓到/usr/local目錄下
$ cd /usr/local
$ sudo mv  hadoop-2.6.0    hadoop                      #重命名為hadoop
$ sudo chown -R hadoop ./hadoop                        #修改文件權限

給hadoop配置環境變量,將下面代碼添加到.bashrc文件:

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

 

 

 

同樣,執行source ~./bashrc使設置生效,並查看hadoop是否安裝成功

這里寫圖片描述

 

四、偽分布式配置

Hadoop 可以在單節點上以偽分布式的方式運行,Hadoop 進程以分離的 Java 進程來運行,節點既作為 NameNode 也作為 DataNode,同時,讀取的是 HDFS 中的文件。Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/ 中,偽分布式需要修改2個配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每個配置以聲明 property 的 name 和 value 的方式來實現。首先將jdk1.7的路徑添(export JAVA_HOME=/usr/lib/jvm/java )加到hadoop-env.sh文件 

 

 

 

接下來修改core-site.xml文件:

復制代碼
<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>
復制代碼

 

 

 

接下來修改配置文件 hdfs-site.xml

復制代碼
<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>
復制代碼

 

Hadoop 的運行方式是由配置文件決定的(運行 Hadoop 時會讀取配置文件),因此如果需要從偽分布式模式切換回非分布式模式,需要刪除 core-site.xml 中的配置項。此外,偽分布式雖然只需要配置 fs.defaultFS 和 dfs.replication 就可以運行(可參考官方教程),不過若沒有配置 hadoop.tmp.dir 參數,則默認使用的臨時目錄為 /tmp/hadoo-hadoop,而這個目錄在重啟時有可能被系統清理掉,導致必須重新執行 format 才行。所以我們進行了設置,同時也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否則在接下來的步驟中可能會出錯。

配置完成后,執行 NameNode 的格式化

 
        
$ ./bin/hdfs namenode -format

啟動namenode和datanode進程,並查看啟動結果

 
        
$ ./sbin/start-dfs.sh
$ jps

啟動完成后,可以通過命令 jps 來判斷是否成功啟動,若成功啟動則會列出如下進程: “NameNode”、”DataNode” 和 “SecondaryNameNode” 

 

 

此時也有可能出現要求輸入localhost密碼的情況 ,如果此時明明輸入的是正確的密碼卻仍無法登入,其原因是由於如果不輸入用戶名的時候默認的是root用戶,但是安全期間ssh服務默認沒有開root用戶的ssh權限

輸入代碼:

$vim /etc/ssh/sshd_config

檢查PermitRootLogin 后面是否為yes,如果不是,則將該行代碼 中PermitRootLogin 后面的內容刪除,改為yes,保存。之后輸入下列代碼重啟SSH服務:

$ /etc/init.d/sshd restart

即可正常登入(免密碼登錄參考第一章)

 

 

成功啟動后,可以訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,還可以在線查看 HDFS 中的文件。 

 

至此,hadoop的安裝就已經完成啦!enjoy it!

from https://www.cnblogs.com/87hbteo/p/7606012.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM