1.執行步驟
修改dfs.namenode.handler.count=150 ()
NameNode 有一個工作線程池用來處理客戶端的遠程過程調用及集群守護進程的調用。處理程序數量越多意味着要更大的池來處理來自不同DataNode的 並發心跳以及客戶端並發的元數據操作。對於大集群或者有大量客戶端的集群來說,通常需要增大參數dfs.namenode.handler.count的 默認值10。設置該值的一般原則是將其設置為集群大小的自然對數乘以20,即20logN,N為集群大小。如果前面的描述你仍然覺得很不清楚,可以看下面 的python程序(其中的200表示集群的大小)
python -c
'import math ; print int(math.log(200) * 20)'
standby:
hadoop-daemon.sh stop namenode
hadoop-daemon.sh start namenode
觀察前台,safemode is off 后
active:
hdfs dfsadmin -failover nn2 nn1
確認成功后
active:
hadoop-daemon.sh stop namenode
hadoop-daemon.sh start namenode
問題:nn1變為active后,出現了很多missingblock,從時間上看都是最新的blk,懷疑是切換中漏掉的blk,原因待進一步分析日志。
2.一次擴展40台機器
cat excludes
cat yarn-excludes
cat slaves
注:集群未設白名單
批量操作腳本如下:
hadoop-daemons.sh --hostnames "$(grep /rack/? app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
yarn-daemons.sh --hostnames "$(grep /rack/? app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager
for i in 05 06 07 08 09 10
do
hadoop-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
yarn-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager
done
問題:①active namenode 掛掉,原因:同時大批量增加datanode,導致namenode處理不過來,hang住超時,自動failover到standbynamenode,對改nn實施了fencing,使其掛掉了,自動failover成功;
②擴充集群后,ganglia性能仍是一路飄紅,但是我認為這資源利用充分,不是問題,提高了效率就算有效。