早上看CDH發現有一個nodemanager掛掉
然后查看對應的日志。 發現在日志里面並沒有錯誤。,然然后發現服務器的磁盤滿了,趕緊清理磁盤空間
清理磁盤的時候發現主要是/tmp目錄下面生成了很多
類似這種的日志。
清理完空間之后 重啟nodemanager。發現還是啟不來
到這里之后發現就停住了。。。。然后CDH頁面就掛了nodemanager還是起不來。
繼續查看
發現8042端口注冊不上。 然后繼續追述上個日志 只要nodemanager啟動就會recovering application
所以 find 一下
find /* -name *application application_1560341746674_1515*
發現 /data/yarn/nm/usercache/root/appcache/* 目錄下面很多 類似的文件,時間為頭一天晚上7點過,繼續看zabbix監控 發現
內存不足,
然后晚上九點過顯示磁盤空間不足,解決辦法
rm -fr /data/yarn/nm/usercache/*
刪除cache之后 重啟nodemanager正常
並且刪除
/var/lib/hadoop-yarn/yarn-nm-recovery/*
問題分析:由於這台機器上跑大任務,導致內存不足,內存不足 yarnnodemanager會一直報警寫到 /tmp目錄下,產生很多大文件,進而導致磁盤不足,
刪除/tmp 下面的日志之后 啟動node 但是一直起不來,yarn會去cache里面 recovering任務,但是這些任務已經過時導致一直起不來,解決辦法就是刪除這些cache
詳細信息可以參考
https://mapr.com/docs/61/AdministratorGuide/c-config-nodemanager-restart.html