【問題現象】
在查詢多個監控網元性能數據時候,發現都有斷點,查看采集程序都正常,而隊列中有一個代理的隊列突然積壓了40多萬個指標未處理

【處理過程】
1、查看proxy的日志情況,無任何異常信息反饋
2、查看代理對應的mysql,無異常等待時間
3、查看代理和數據庫所在的主機性能,CPU、內存、網絡、IO指標都正常
4、嘗試重啟數據庫和代理進程,問題未解決
5、通過隊列的“細節”選項,查看堵塞的監控項情況,發現有大量的容器主機節點的監控信息
6、查看對應主機的監控信息,發現通過自動發現模版,掃描出10多萬個監控項

這個也是直接導致積壓的原因
經確認,這一批容器節點中的pod之前出現接近一千多次的異常重啟,使proxy產生大量異常的監控項導致
將這幾個容器主機的監控置為失效后,隊列瞬間恢復正常
