2020雙十 阿里雲服務器ECS團購特惠鏈接
一、系統配置
3台虛擬機
hadoop1: 4g內存 2核 80g硬盤 作為master節點
hadoop2 1g內存 1核 8g硬盤 作為slave節點
hadoop3: 1g內存 1核 8g硬盤 作為slave節點
二、基礎概念
hadoop主要包含了3個組件:存儲組件hdfs、資源調度引擎yarn、計算引擎MapReduce.
1、hdfs集群
NameNode: 資源存儲目錄,負責維護整個HDFS文件系統的目錄樹以及每一個路徑(文件)對應的block塊信息
DataNode: 資源實際存儲位置
2、yarn集群
ResourceManage: 負責資源的分配與調度
NodeManager: 負責接收 ResourceManager的資源分配請求,分配具體的資源給應用
三、hadoop集群搭建
1、下載安裝包到hadoop1節點的/usr/local/softwareinstall目錄
curl -O https://mirrors.ocf.berkeley.edu/apache/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz
2、遠程傳輸到hadoop2、hadoop3節點同目錄下
scp hadoop-2.10.0.tar.gz root@hadoop2:`pwd`
scp hadoop-2.10.0.tar.gz root@hadoop3:`pwd`
3、解壓安裝包(3台節點同時操作)
tar -zxvf hadoop-2.10.0.tar.gz
4、添加hadoop環境變量
vim /etc/profile
添加如下配置
export HADOOP_HOME=/usr/local/softwareinstall/hadoop-2.10.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile #使修改生效
5、修改配置文件(/usr/local/softwareinstall/hadoop-2.10.0/etc/hadoop/目錄下的文件)
(1)core-site.xml
添加如下配置
<configuration>
<!--The name of the default file system-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:9003</value>
</property>
<!--修改用於hadoop存儲數據的默認位置-->
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop</value>
</property>
</configuration>
(2)slaves文件
避免節點過多時,需要手工重復進行dataNode/NodeManager的啟動,
編輯該文件后,只需要在master節點上操作即可啟動集群。
(3)hadoop-env.sh
告知hadoop jdk安裝目錄所在
(4)mapred-site.xml (map-reduce相關配置)
拷貝mapred-site.xml.template文件,命名為mapred-site.xml,添加如下配置
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(5)yarn-site.xml
<configuration>
<!-- 設置ResourceManager 域名 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
6、啟動集群(hdfs集群和yarn集群)
只需在master節點(hadoop1)上操作即可(前提:需配置ssh免密登錄,使hadoop1能夠免密登錄到hadoop2、hadoop3),
6.1 啟動hdfs集群
hdfs namenode -format #格式化hdfs文件系統
start-dfs.sh #啟動hdfs集群
stop-dfs.sh #停止hdfs集群
(start-dfs.s為安裝目錄sbin文件下的可執行文件,因為已配置環境變量,故可不帶就對路徑)
6.2 啟動yarn集群
start-yarn.sh #啟動yarn集群
stop-yarn.sh #停止yarnjiqun
6.3 進程驗證
可用start-all.sh一次性啟動hdfs、yarn集群
7、ui界面登陸
7.1 hdfs集群管理 ui界面
7.2 yarn集群管理ui界面
參考:
(1)hadoop單節點安裝官方教程
(4)hadoop集群安裝官方教程
(2)core-site.xml配置項含義
(3)hdfs-site.xml配置項含義
(4)mapred-site.xml配置項含義
(5)yarn-site.xml配置項含義