HDFS集群常見異常及排查步驟 - 碼上歡樂

相關內容簡體繁體

HDFS集群常見異常及排查步驟

本文轉載自查看原文 2017-10-05 11:09 1054 大數據知識/ Hadoop

1.問題一: 權限問題。比如hdfs需要寫入目錄的權限不足，本地目錄工作異常,(權限問題)，出現異常后大家不要看到一堆錯誤代碼就心慌，不必害怕。hadoop目錄下有個日志文件夾. 如果那個節點出現問題就查看日志信息。 tail -F /XXX.log tail -F 可以動態監控文件內容的變化。

2.問題二: 文件屬主不一致。比如文件是普通用戶修改的或者文件沒有相應的權限。root用戶就無法實現讀取或寫入功能。可以用文件所有者賦予權限: chown + username xxx.

3.問題三: 比如上傳文件，報錯。NameNode is safe mode. 這是因為集群處於安全模式下,安全模式下禁止對文件的任何操作，包括寫and 刪除等操作。這時候需要退出安全模式。

退出安全模式的命令: hdfs dfsadmin -safemode leave。查看集群的狀態信息 hdfs dfsadmin -report 。集群剛啟動DN會向NN匯報一些信息處於安全模式是正常的，如果集群啟動后還是不退出就出現異常了。需要手動退出安全模式。可以查看日志信息或重啟集群。

4.問題四: 啟動start-dfs.sh 后上傳文件，發現上傳失敗。報異常錯誤。就嘗試把tmp目錄刪除后重新格式化。 hadoop namenode -format

5.問題五: 用JPS (jps) 小寫查看進程是否正常出現。如果出現后隔幾秒就掛掉，說明進程異常。可以查看對應的日志。在logs目錄下。

6.問題六: 如果進程不存在,就查看相關進程日志文件來分析錯誤。如果進程存在還是有問題，可能是進程間的集群協調有問題。可以通過查看集群的報告信息。

hdfs dfsadmin -report

7.問題七: 如果進程正常出現,但是執行文件上傳下載還是有問題。就查看進程是否正常可用。用指令hdfs dfsadmin -report 查看對應的進程是否可用的狀態。可能是集群剛啟動，進程還沒有加入到集群的原因。可用嘗試重新上傳或下載文件測試。

8問題八: 如果實在找不到原因就嘗試把tmp目錄刪掉，重新格式化集群，再次啟動集群。前提是linux系統的環境正常。

歡迎補充哦

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 RKE 集群常見問題排查 HDFS集群常見報錯匯總服務器流量異常排查步驟（查看進程的流量） Redis集群配置和常見異常解決 K8S線上集群排查，實測排查Node節點NotReady異常狀態 K8S線上集群排查，實測排查Node節點NotReady異常狀態 IIS網站部署步驟以及常見異常解決方案 CentOS服務器上搭建Gitlab安裝步驟、中文漢化詳細步驟、日常管理以及異常故障排查 CentOS服務器上搭建Gitlab安裝步驟、中文漢化詳細步驟、日常管理以及異常故障排查 JVM排查步驟

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM