-
基礎准備
在基礎准備部分,主要是設置hadoop運行的系統環境
-
修改系統hostname(通過hostname和/etc/sysconfig/network進行修改)
-
修改hosts文件,將集群所有節點hosts配置進去(集群所有節點保持hosts文件統一)
-
設置NameNode(兩台HA均需要)到DataNode的免密碼登錄(ssh-copy-id命令實現,可以免去cp *.pub文件后的權限修改)
-
修改主節點slave文件,添加新增節點的ip信息(集群重啟時使用)
-
將hadoop的配置文件scp到新的節點上
-
-
添加DataNode
對於新添加的DataNode節點,需要啟動datanode進程,從而將其添加入集群
-
在新增的節點上,運行hadoop-daemon.sh start datanode即可
-
然后在namenode通過hdfs dfsadmin -report查看集群情況
-
最后還需要對hdfs負載設置均衡,因為默認的數據傳輸帶寬比較低,可以設置為64M,即hdfs dfsadmin -setBalancerBandwidth 67108864即可
-
默認balancer的threshold為10%,即各個節點與集群總的存儲使用率相差不超過10%,我們可將其設置為5%
-
然后啟動Balancer,sbin/start-balancer.sh -threshold 5,等待集群自均衡完成即可
-
-
添加Nodemanager
由於Hadoop 2.X引入了YARN框架,所以對於每個計算節點都可以通過NodeManager進行管理,同理啟動NodeManager進程后,即可將其加入集群
-
在新增節點,運行yarn-daemon.sh start nodemanager即可
-
在ResourceManager,通過yarn node -list查看集群情況
-