yarn 集群资源为0 问题cluster resource is


测试集群上一个任务一直夯住,执行了几个小时还没有结束。

我对问题进行了排查

 查看yarn页面发现任务被接受了,但没有被分配资源

查看rm日志,也是集群没有任何资源

 

 Application is added to the scheduler and is not yet activated. Skipping AM assignment as cluster resource is empty

  

 怀疑nn没有启动注册成功

查看nn启动着,日志显示也注册成了

再查看rm日志,发现nn被标记为不健康移除了

 

 最后在yarn web页面的nn的health-report发现,是nn的存储空间不足达到阈值导致的

 

 后来排查发现是其他部门的实习同志误操作短时间在测试集群nn节点写入大量数据,占用了额外的存储空间导致


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM