測試集群上一個任務一直夯住,執行了幾個小時還沒有結束。
我對問題進行了排查
查看yarn頁面發現任務被接受了,但沒有被分配資源
查看rm日志,也是集群沒有任何資源
Application is added to the scheduler and is not yet activated. Skipping AM assignment as cluster resource is empty
懷疑nn沒有啟動注冊成功
查看nn啟動着,日志顯示也注冊成了
再查看rm日志,發現nn被標記為不健康移除了
最后在yarn web頁面的nn的health-report發現,是nn的存儲空間不足達到閾值導致的
后來排查發現是其他部門的實習同志誤操作短時間在測試集群nn節點寫入大量數據,占用了額外的存儲空間導致