HDFS集群常見異常及排查步驟


1.問題一: 權限問題。比如hdfs需要寫入目錄的權限不足,本地目錄工作異常,(權限問題),出現異常后大家不要看到一堆錯誤代碼就心慌,不必害怕。hadoop目錄下有個日志文件夾. 如果那個節點 出現問題就查看日志信息。 tail  -F  /XXX.log    tail -F 可以動態監控文件內容的變化。

2.問題二: 文件屬主不一致。比如文件是普通用戶修改的或者文件沒有相應的權限。root用戶就無法實現讀取或寫入功能。 可以用文件所有者賦予權限:  chown  +  username xxx.

3.問題三: 比如上傳文件,報錯。NameNode is  safe mode.   這是因為集群處於安全模式下,安全模式下禁止對文件的任何操作,包括寫and 刪除等操作。這時候需要退出安全模式。

 退出安全模式的命令:  hdfs  dfsadmin  -safemode  leave。                    查看集群的狀態信息   hdfs   dfsadmin   -report 。  集群剛啟動DN會向NN匯報一些信息處於安全模式是正常的,如果集群啟動后還是不退出就出現異常了。需要手動退出安全模式。  可以查看日志信息或重啟集群。

4.問題四:  啟動start-dfs.sh 后上傳文件,發現上傳失敗。報異常錯誤。就嘗試把tmp目錄刪除后重新格式化。  hadoop   namenode  -format 

5.問題五: 用JPS (jps) 小寫查看進程是否正常出現。如果出現后隔幾秒就掛掉,說明進程異常。可以查看對應的日志。在logs目錄下。

6.問題六: 如果進程不存在,就查看相關進程日志文件來分析錯誤。如果進程存在還是有問題,可能是進程間的集群協調有問題。可以通過查看集群的報告信息。

   hdfs  dfsadmin   -report

7.問題七: 如果進程正常出現,但是執行文件上傳下載還是有問題。就查看進程是否正常可用。  用指令hdfs  dfsadmin   -report  查看對應的進程是否可用的狀態。可能是集群剛啟動,進程還沒有加入到集群的 原因。可用嘗試重新上傳或下載文件測試。

8問題八: 如果實在找不到原因就嘗試把tmp目錄刪掉,重新格式化集群,再次啟動集群。 前提是linux系統的環境正常。

 

歡迎補充哦

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM