hadoop在線重啟namenode+在線擴展集群

本文轉載自查看原文 2016-08-29 19:42 1589 hadoop

1.執行步驟

修改dfs.namenode.handler.count=150 ()

NameNode 有一個工作線程池用來處理客戶端的遠程過程調用及集群守護進程的調用。處理程序數量越多意味着要更大的池來處理來自不同DataNode的並發心跳以及客戶端並發的元數據操作。對於大集群或者有大量客戶端的集群來說，通常需要增大參數dfs.namenode.handler.count的默認值10。設置該值的一般原則是將其設置為集群大小的自然對數乘以20，即20logN，N為集群大小。如果前面的描述你仍然覺得很不清楚，可以看下面的python程序（其中的200表示集群的大小）

python -c 'import math ; print int(math.log(200) * 20)'

standby：

hadoop-daemon.sh stop namenode

hadoop-daemon.sh start namenode

觀察前台，safemode is off 后

active：

hdfs dfsadmin -failover nn2 nn1

確認成功后

active：

hadoop-daemon.sh stop namenode

hadoop-daemon.sh start namenode

問題：nn1變為active后，出現了很多missingblock，從時間上看都是最新的blk，懷疑是切換中漏掉的blk，原因待進一步分析日志。

2.一次擴展40台機器

cat excludes

cat yarn-excludes

cat slaves

注：集群未設白名單

批量操作腳本如下：

   hadoop-daemons.sh --hostnames "$(grep /rack/？ app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
   yarn-daemons.sh --hostnames "$(grep /rack/？ app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager

   for i in 05 06 07 08 09 10
   do
   hadoop-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
   yarn-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager
   done
問題：①active namenode 掛掉，原因：同時大批量增加datanode，導致namenode處理不過來，hang住超時，自動failover到standbynamenode，對改nn實施了fencing，使其掛掉了，自動failover成功；
        ②擴充集群后，ganglia性能仍是一路飄紅，但是我認為這資源利用充分，不是問題，提高了效率就算有效。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop集群只有namenode沒有啟動 hadoop集群中namenode沒有啟動 hadoop集群無法啟動namenode： ERROR namenode.NameNode: Failed to start namenode. Hadoop集群格式化NameNode hadoop錯誤--集群啟動master時namenode進程無法啟動 HDFS NameNode重啟優化 Hadoop恢復namenode數據 Hadoop NameNode的ZKFC機制 hadoop的namenode啟動失敗 hadoop namenode啟動失敗