重啟yarn導致僵死資源不可用問題

本文轉載自查看原文 2019-05-15 11:51 838

今日在做節點可靠性測試的時候，錯誤重啟了yarn整個服務，其hdfs等他組件正常，yarn過會自動僵死，導致整個平台資源調度問題，恢復步驟如下：

1.查看日志tail -f yarn-resourcemanger-192.168.1.233.log（不清楚你的日志在哪可以find / -name yarn）

2.登陸裝有yarn的機器，查看rm1，rm2 的狀態。我的rm1，rm2，都是standby，（rm是resourceManger，HA）

$ yarn rmadmin -getServiceState rm1
standby
$ yarn rmadmin -getServiceState rm2
standby

（手動的切換准備命令了yarn rmadmin -transitionToStandby rm1）

3.以上兩個命令已經可以發現主rm沒有起來，但重啟后，依然會僵死。清空rm日志，重新啟動rm后，分析日志會發現如下錯誤：

Caused by: org.apache.hadoop.metrics2.MetricsException: Hadoop:service=ResourceManager,name=RMNMInfo already exists!

Caused by: java.lang.IllegalArgumentException: No object name specified
at com.sun.jmx.interceptor.DefaultMBeanServerInterceptor.registerDynamicMBean(DefaultMBeanServerInterceptor.java:949)
... 21 more

Metrics source ClusterMetrics already exists!

4.這時可以考慮是有個application加載不起來。

可以修改yarn-site.xml的yarn.resourcemanager.recovery.enabled = false。

若集群開啟了Recovery功能，則ResourceManager重啟過程中:

Hive作業正常運行至結束
YARN UI的作業信息一直保留存在

這里我們要改為false，后重啟yarn。

5.等待yarn空閑時，連接zookeeper(在zk的bin目錄下運行./zkCli.sh -server 127.0.0.1:2181)

登陸后查看該目錄ls /rmstore/ZKRMStateRoot/RMAppRoot,

不為空則使用該命令rmr /rmstore/ZKRMStateRoot/RMAppRoot/* 刪除目錄文件

確定為空時，把yarn-site.xml的yarn.resourcemanager.recovery.enabled改回ture

6.重啟yarn。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 k8s 部署了 redis 集群，節點重啟后，ip 變化導致集群不可用的問題關於windows server 2008和2008 R2 激活，狀態不可用產品ID不可用，並且重啟后狀態不可用產品ID不可用記一次邏輯卷磁盤故障導致邏輯卷不可用的問題數據庫死鎖和慢日志問題導致服務不可用的排查過程如何解決 chrome 58 版本更新導致的 fiddler https 抓包不可用問題 VC斷點不可用的問題日常問題解決：解決fork: retry: 資源暫時不可用 centos6 升級pip后導致pip不可用 jedis連接池爆滿導致的服務不可用手抖把Python2.7卸載了,導致了自己的yum不可用以及yum因python版本無法使用的問題