記一次nodemanager無法啟動的情況


 早上看CDH發現有一個nodemanager掛掉

然后查看對應的日志。 發現在日志里面並沒有錯誤。,然然后發現服務器的磁盤滿了,趕緊清理磁盤空間

清理磁盤的時候發現主要是/tmp目錄下面生成了很多 

類似這種的日志。

清理完空間之后 重啟nodemanager。發現還是啟不來

到這里之后發現就停住了。。。。然后CDH頁面就掛了nodemanager還是起不來。

繼續查看

發現8042端口注冊不上。 然后繼續追述上個日志 只要nodemanager啟動就會recovering  application

所以 find 一下

find /*  -name *application application_1560341746674_1515*

 發現 /data/yarn/nm/usercache/root/appcache/* 目錄下面很多 類似的文件,時間為頭一天晚上7點過,繼續看zabbix監控 發現

 

內存不足,

然后晚上九點過顯示磁盤空間不足,解決辦法 

rm  -fr /data/yarn/nm/usercache/*

刪除cache之后 重啟nodemanager正常

 並且刪除

/var/lib/hadoop-yarn/yarn-nm-recovery/*

 

問題分析:由於這台機器上跑大任務,導致內存不足,內存不足 yarnnodemanager會一直報警寫到  /tmp目錄下,產生很多大文件,進而導致磁盤不足,

刪除/tmp 下面的日志之后 啟動node 但是一直起不來,yarn會去cache里面 recovering任務,但是這些任務已經過時導致一直起不來,解決辦法就是刪除這些cache

  詳細信息可以參考

https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Yarn-NodeManager-fails-to-start-and-crashing-with-SIGBUS/m-p/67382#M3640

https://mapr.com/docs/61/AdministratorGuide/c-config-nodemanager-restart.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM