ubantu18.04下Hadoop安裝與偽分布式配置


1  下載

  下載地址:http://mirror.bit.edu.cn/apache/hadoop/common/stable2/

 

2 解壓

  將文件解壓到 /usr/local/hadoop

    cd ~/下載

  tar -zxf hadoop-2.9.1.tar.gz

  sudo mv ./hadoop-2.9.1/ /usr/local/hadoop

  cd /usr/local/hadoop

  

  此時可以查看Hadoop版本信息:

./bin/hadoop version

  

3 hadoop偽分布式配置

3.1 配置hadoop中的JAVA_HOME

  到hadoop的安裝目錄修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”,在里面找到“export JAVA_HOME=${JAVA_HOME}”這行,然后,把它修改成JAVA安裝路徑的具體地址,比如,“ export JAVA_HOME=/usr/local/jdk1.8.0_191”,然后,再次啟動Hadoop。

   

  

  修改后:

    

  令文件生效:

  

3.2 ssh登陸

  集群、單節點模式都需要用到 SSH 登陸(類似於遠程登陸,你可以登錄某台 Linux 主機,並且在上面運行命令),Ubuntu 默認已安裝了 SSH client,此外還需要安裝 SSH server:

sudo apt-get install openssh-server

  安裝后,可以使用如下命令登陸本機:

ssh localhost

  此時會有如下提示(SSH首次登陸提示),輸入 yes 。然后按提示輸入密碼 hadoop,這樣就登陸到本機了。

   

  但這樣登陸是需要每次輸入密碼的,我們需要配置成SSH無密碼登陸比較方便。

  首先退出剛才的 ssh,就回到了我們原先的終端窗口,然后利用 ssh-keygen 生成密鑰,並將密鑰加入到授權中:

exit # 退出剛才的 ssh localhost

cd ~/.ssh/ # 若沒有該目錄,請先執行一次ssh localhost

ssh-keygen -t rsa # 會有提示,都按回車就可以

cat ./id_rsa.pub >> ./authorized_keys # 加入授權

3.3 配置HADOOP_HOME

  在 ~/.bashrc 中,增加如下內容(設置過程與 JAVA_HOME 變量一樣,其中 HADOOP_HOME 為 Hadoop 的安裝目錄)

#hadoop

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME$/bin

export PATH=$PATH:$HADOOP_HOME$/sbin

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

修改后如下圖所示:

  

  修改/usr/local/hadoop/etc/hadoop/core-site.xml文件配置:

sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

  修改為一下內容:

<configuration>

    <property>

        <name>fs.default.name</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>        

   修改YARN-site.xml文件配置:

sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml

  修改為以下內容:

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

</configuration>

   復制文件:

sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

  然后進行編輯:

sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

  修改為以下內容:

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

  配置hdfs-site.xml文件:

sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml

  修改為以下內容:

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>3</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>

    </property>

    <property>

        <name>dfs.namenode.data.dir</name>

        <value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>

    </property>

</configuration>

  Hadoop 可以在單節點上以偽分布式的方式運行,Hadoop 進程以分離的 Java 進程來運行,節點既作為 NameNode 也作為 DataNode,同時,讀取的是 HDFS 中的文件。

Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/ 中,偽分布式需要修改2個配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每個配置以聲明 property 的 name 和 value 的方式來實現。

Hadoop配置文件說明

  Hadoop 的運行方式是由配置文件決定的(運行 Hadoop 時會讀取配置文件),因此如果需要從偽分布式模式切換回非分布式模式,需要刪除 core-site.xml 中的配置項。

  此外,偽分布式雖然只需要配置 fs.defaultFS 和 dfs.replication 就可以運行(官方教程如此),不過若沒有配置 hadoop.tmp.dir 參數,則默認使用的臨時目錄為 /tmp/hadoo-hadoop,而這個目錄在重啟時有可能被系統清理掉,導致必須重新執行 format 才行。所以我們進行了設置,同時也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否則在接下來的步驟中可能會出錯。

3.4 格式化

  配置完成后,執行 NameNode 的格式化,執行以下命令:

  創建namenode數據存放目錄:

sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode

  創建愛你datanode數據存放目錄:

sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode

  將Hadoop目錄的所有者更改為chb:

sudo chown chb:chb -R /usr/local/hadoop

  格式化:

hadoop namenode -format

  運行上述命令之后,出現“successfully formatted.“則證明格式化成功。

   

  啟動HDFS:

start-dfs.sh

  

  啟動Hadoop MapReduce框架的Yarn:

   

  當然,也可以同時啟動上述兩者:

start-all.sh

  啟動完成后,可以通過命令 jps 來判斷是否成功啟動,若成功啟動則會列出如下進程: “NameNode”、”DataNode” 和 “SecondaryNameNode”(如果 SecondaryNameNode 沒有啟動,請運行 sbin/stop-dfs.sh 關閉進程,然后再次嘗試啟動嘗試)。如果沒有 NameNode 或 DataNode ,那就是配置不成功,請仔細檢查之前步驟,或通過查看啟動日志排查原因。

  jps#可不是jsp

   

  打開瀏覽器,輸入地址:http://localhost:8088/可以看到如下界面:

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM