環境:apache hadoop 2.7.2 、機器發生重啟,集群異常關閉
現象:重啟hdfs和yarn服務,底層namenode和datanode都沒有報錯,但是在namenode的web ui上報錯 198.3.100.21:50070
NameNode is still loading. Redirecting to the Startup Progress page
在一篇博客中有一個人這樣評論:
這種一般發生在一個namenode掛掉之后,隔一段時間重啟,那么這個重啟namenode需要加載到最新的fsimage,這種情況就是正常的,根據fsimage大小,加載的時間長短也是不一樣的。
我看了很多人換瀏覽器就ok了,很可能他們的hdfs上的數據比較少,能快速加載完畢,換瀏覽器的時間就加載完畢了。
我的服務持續加載了2個小時,一直顯示50%,可能是因為我的hdfs數據比較多?但是fsimage只有600k而已啊。
等了一會老司機領導已經打電話過來了。
描述了一下情況,領導幫忙看了一眼,說:內存問題
修改
修改hadoop-env.sh,對其參數進行內存調優 擴大一下2個參數的jvm使用內存,原來是512m,改為5120M export HADOOP_PORTMAP_OPTS="-Xmx5120m $HADOOP_PORTMAP_OPTS" xport HADOOP_CLIENT_OPTS="-Xmx5120m $HADOOP_CLIENT_OPTS" 分發配置文件 重啟 問題解決