hadoop集群搭建(hadoop-2.10.0)


2020雙十 阿里雲服務器ECS團購特惠鏈接
一、系統配置
3台虛擬機
hadoop1: 4g內存 2核 80g硬盤 作為master節點
hadoop2 1g內存 1核 8g硬盤 作為slave節點
hadoop3: 1g內存 1核 8g硬盤 作為slave節點

二、基礎概念
hadoop主要包含了3個組件:存儲組件hdfs、資源調度引擎yarn、計算引擎MapReduce.

1、hdfs集群
NameNode: 資源存儲目錄,負責維護整個HDFS文件系統的目錄樹以及每一個路徑(文件)對應的block塊信息
DataNode: 資源實際存儲位置

2、yarn集群
ResourceManage: 負責資源的分配與調度
NodeManager: 負責接收 ResourceManager的資源分配請求,分配具體的資源給應用

三、hadoop集群搭建
1、下載安裝包到hadoop1節點的/usr/local/softwareinstall目錄

curl -O https://mirrors.ocf.berkeley.edu/apache/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz

2、遠程傳輸到hadoop2、hadoop3節點同目錄下

scp hadoop-2.10.0.tar.gz  root@hadoop2:`pwd`
scp hadoop-2.10.0.tar.gz  root@hadoop3:`pwd`

3、解壓安裝包(3台節點同時操作)

tar -zxvf hadoop-2.10.0.tar.gz

4、添加hadoop環境變量

vim /etc/profile

添加如下配置

export HADOOP_HOME=/usr/local/softwareinstall/hadoop-2.10.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile   #使修改生效

5、修改配置文件(/usr/local/softwareinstall/hadoop-2.10.0/etc/hadoop/目錄下的文件)
(1)core-site.xml
添加如下配置

<configuration>
 <!--The name of the default file system-->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop1:9003</value>
  </property>
 <!--修改用於hadoop存儲數據的默認位置-->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/data/hadoop</value>
  </property>
</configuration>

(2)slaves文件

避免節點過多時,需要手工重復進行dataNode/NodeManager的啟動,
編輯該文件后,只需要在master節點上操作即可啟動集群。

(3)hadoop-env.sh

告知hadoop jdk安裝目錄所在

(4)mapred-site.xml (map-reduce相關配置)

拷貝mapred-site.xml.template文件,命名為mapred-site.xml,添加如下配置
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

(5)yarn-site.xml

<configuration>
    <!-- 設置ResourceManager 域名 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop1</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

6、啟動集群(hdfs集群和yarn集群)
只需在master節點(hadoop1)上操作即可(前提:需配置ssh免密登錄,使hadoop1能夠免密登錄到hadoop2、hadoop3),

6.1 啟動hdfs集群

hdfs namenode -format   #格式化hdfs文件系統
start-dfs.sh   #啟動hdfs集群
stop-dfs.sh   #停止hdfs集群
(start-dfs.s為安裝目錄sbin文件下的可執行文件,因為已配置環境變量,故可不帶就對路徑)

6.2 啟動yarn集群

start-yarn.sh    #啟動yarn集群
stop-yarn.sh     #停止yarnjiqun

6.3 進程驗證

可用start-all.sh一次性啟動hdfs、yarn集群

7、ui界面登陸
7.1 hdfs集群管理 ui界面

7.2 yarn集群管理ui界面

參考:
(1)hadoop單節點安裝官方教程
(4)hadoop集群安裝官方教程
(2)core-site.xml配置項含義
(3)hdfs-site.xml配置項含義
(4)mapred-site.xml配置項含義
(5)yarn-site.xml配置項含義


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM