hadoop在線重啟namenode+在線擴展集群


1.執行步驟

   修改dfs.namenode.handler.count=150 ()

   NameNode 有一個工作線程池用來處理客戶端的遠程過程調用及集群守護進程的調用。處理程序數量越多意味着要更大的池來處理來自不同DataNode的 並發心跳以及客戶端並發的元數據操作。對於大集群或者有大量客戶端的集群來說,通常需要增大參數dfs.namenode.handler.count的 默認值10。設置該值的一般原則是將其設置為集群大小的自然對數乘以20,即20logN,N為集群大小。如果前面的描述你仍然覺得很不清楚,可以看下面 的python程序(其中的200表示集群的大小)

   python -c 'import math ; print int(math.log(200) * 20)'

   standby:

   hadoop-daemon.sh stop namenode

   hadoop-daemon.sh start namenode

   觀察前台,safemode is off 后

   active:

   hdfs dfsadmin -failover nn2 nn1

   確認成功后

   active:

   hadoop-daemon.sh stop namenode

   hadoop-daemon.sh start namenode

問題:nn1變為active后,出現了很多missingblock,從時間上看都是最新的blk,懷疑是切換中漏掉的blk,原因待進一步分析日志。

2.一次擴展40台機器

   cat excludes

   cat yarn-excludes

   cat slaves

   注:集群未設白名單

   批量操作腳本如下:

   hadoop-daemons.sh --hostnames "$(grep /rack/? app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
   yarn-daemons.sh --hostnames "$(grep /rack/? app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager
  

   for i in 05 06 07 08 09 10
   do
   hadoop-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
   yarn-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager
   done
問題:①active namenode 掛掉,原因:同時大批量增加datanode,導致namenode處理不過來,hang住超時,自動failover到standbynamenode,對改nn實施了fencing,使其掛掉了,自動failover成功;
        ②擴充集群后,ganglia性能仍是一路飄紅,但是我認為這資源利用充分,不是問題,提高了效率就算有效。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM