1 概述
解決hadoop啟動hdfs時,datanode無法啟動的問題。錯誤為:
java.io.IOException: Incompatible clusterIDs in /home/lxh/hadoop/hdfs/data: namenode clusterID = CID-a3938a0b-57b5-458d-841c-d096e2b7a71c; datanode clusterID = CID-200e6206-98b5-44b2-9e48-262871884eeb
2 問題描述
執行start-dfs.sh后,根據打印日志,可以看到分別執行了NameNode、DataNode的操作。
Starting namenodes on [localhost] localhost: starting namenode, logging to /home/lxh/hadoop/hadoop-2.4.1/logs/hadoop-lxh-namenode-ubuntu.out localhost: starting datanode, logging to /home/lxh/hadoop/hadoop-2.4.1/logs/hadoop-lxh-datanode-ubuntu.out
但是執行jps查看啟動結果時,返現DataNode並沒有啟動。
10256 ResourceManager 29634 NameNode 29939 SecondaryNameNode 30054 Jps 10399 NodeManager
3 查找問題
很是費解,剛剛還能夠正常運行,並且執行了wordcount的測試程序。於是回想了一下剛才的操作,執行了dfs格式化(hdfs namenode -format和hdfs datanode -format),然后重新啟動就出現了這個情況。難道與格式化有關?於是查看日志:
2014-08-08 00:32:08,787 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000. Exiting. java.io.IOException: Incompatible clusterIDs in /home/lxh/hadoop/hdfs/data: namenode clusterID = CID-a3938a0b-57b5-458d-841c-d096e2b7a71c; datanode clusterID = CID-200e6206-98b5-44b2-9e48-262871884eeb at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:477) at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:226) at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:254) at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:974) at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:945) at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:278) at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:220) at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:816) at java.lang.Thread.run(Thread.java:745) 2014-08-08 00:32:08,790 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool <registering> (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000 2014-08-08 00:32:08,791 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool <registering> (Datanode Uuid unassigned)
根據日志描述,原因是datanode的clusterID 和 namenode的clusterID 不匹配。
原因找到,看看是否如日志描述的這樣。
打開hdfs-site.xml中關於datanode和namenode對應的目錄,分別打開其中的current/VERSION文件,進行對比。
${datanode}/current/VERSION: storageID=DS-be8dfa2b-17b1-4c9f-bbfe-4898956a39ed clusterID=CID-200e6206-98b5-44b2-9e48-262871884eeb cTime=0 datanodeUuid=406b6d6a-0cb1-453d-b689-9ee62433b15d storageType=DATA_NODE layoutVersion=-55
${namenode}/current/VERSION: namespaceID=670379 clusterID=CID-a3938a0b-57b5-458d-841c-d096e2b7a71c cTime=0 storageType=NAME_NODE blockpoolID=BP-325596647-127.0.1.1-1407429078192 layoutVersion=-56
果然如日志中記錄的一樣,於是修改datanode的VERSION文件中的clusterID,使與namenode保持一致,然后啟動dfs(執行start-dfs.sh),在執行jps查看啟動情況,發現全部正常啟動。
10256 ResourceManager 30614 NameNode 30759 DataNode 30935 SecondaryNameNode 31038 Jps 10399 NodeManager
4 分析問題原因
執行hdfs namenode -format后,current目錄會刪除並重新生成,其中VERSION文件中的clusterID也會隨之變化,而datanode的VERSION文件中的clusterID保持不變,造成兩個clusterID不一致。
所以為了避免這種情況,可以再執行的namenode格式化之后,刪除datanode的current文件夾,或者修改datanode的VERSION文件中出clusterID與namenode的VERSION文件中的clusterID一樣,然后重新啟動dfs。