今天突然發現,我們的flink程序掛掉了,然后先把程序啟動起來,發現正常運行,然后去看什么問題,發現我們的集群當中的一台服務器掛掉了,然后重新啟動了一台服務器
然后緊接着,我去看yarn資源管理器看失敗的任務發現超時
Application application_1603766479824_0004 failed 1 times (global limit =2; local limit is =1) due to AM Container for appattempt_1603766479824_0004_000001 exited with exitCode: -100 Failing this attempt.Diagnostics: Container released on a *lost* nodeFor more detailed output, check the application tracking page: http://ip-172-31-30-217.cn-northwest-1.compute.internal:8088/cluster/app/application_1603766479824_0004 Then click on links to logs of each attempt. . Failing the application.
然后我們去hdfs的界面發現也有問題:
Please check the logs or run fsck in order to identify the missing blocks. See the Hadoop FAQ for common causes and potential solutions.
flink程序在寫日志的時候,數據塊好像有問題。解決這個問題的辦法如下
連接:http://www.julyme.com/20180202/99.html
但是在執行的時候出現了一點小問題,文件目錄權限的問題:
Permission denied: user=root, access=READ_EXECUTE, inode="/tmp/entity-file-history/done":yarn:hadoo
解決這個問題的方法是:
先切回到你的用戶下,然后執行 hadoop fsck -delete 命令這樣數據塊就被修復了
至此問題得到解決。