當Hadoop集群的某單個節點出現問題時,一般不必重啟整個系統,只須重啟這個節點,它會自動連入整個集群。
在壞死的節點上輸入如下命令即可:
hadoop-daemon.sh start datanode
hadoop-daemon.sh start secondarynamenode
案例如下:
hadoop節點死機,能ping通,ssh連接不上
案例:
時間:2014/9/11 上午
表現:hadoop的web界面上TC-hadoop018節點dead
症狀:節點TC-hadoop018的ssh連接不上
解決辦法:
通知機房管理員重啟機器,
關閉防火牆 查看狀態:/etc/init.d/iptatbles status 關閉:/etc/init.d/iptables stop
hadoop-daemon.sh stop datanode
hadoop-daemon.sh stop tasktracker
hadoop-daemon.sh start datanode
hadoop-daemon.sh start tasktracker
至此,啟動成功
【慎用】必要的時候,查看web界面,如果沒有正在運行的job,直接重啟整個集群。
Hadoop的secondarynamenode端口50090不通
案例:
時間:2014/9/11 下午
表現:sos2報警提示123.125.244.6_50090端口報警
症狀:jps命令123.125.244.6機器上SecondaryNameNode進程沒有
解決辦法:
hadoop-daemon.sh stop secondarynamenode
hadoop-daemon.sh start secondarynamenode
至此,啟動成功
