yarn 集群資源為0 問題cluster resource is


測試集群上一個任務一直夯住,執行了幾個小時還沒有結束。

我對問題進行了排查

 查看yarn頁面發現任務被接受了,但沒有被分配資源

查看rm日志,也是集群沒有任何資源

 

 Application is added to the scheduler and is not yet activated. Skipping AM assignment as cluster resource is empty

  

 懷疑nn沒有啟動注冊成功

查看nn啟動着,日志顯示也注冊成了

再查看rm日志,發現nn被標記為不健康移除了

 

 最后在yarn web頁面的nn的health-report發現,是nn的存儲空間不足達到閾值導致的

 

 后來排查發現是其他部門的實習同志誤操作短時間在測試集群nn節點寫入大量數據,占用了額外的存儲空間導致


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM