參考:https://blog.csdn.net/zhanyuanlin/article/details/78799341
現象:
公司集群使用的是容量調度器,其中有個任務隊列在yarn上查看,只占用了20%的資源,在其中提交的任務有50多個,全部都是pending狀態
原因:
初步分析,表的小文件過多導致任務運行時間過長,資源一直不釋放,
yarn的預留機制,當執行資源占用大的任務時,會向各個executor預約資源,當有資源能運行了才會去取消預約,而在集群負載過高的情況下,可能會出現極端情況:資源全部被各個任務預留,而沒有一個任務在運行,形成阻塞。
解決:
任務錯峰運行,小文件優化,資源申請優化