一次zabbix代理隊列積壓的異常處理


【問題現象】

   在查詢多個監控網元性能數據時候,發現都有斷點,查看采集程序都正常,而隊列中有一個代理的隊列突然積壓了40多萬個指標未處理

【處理過程】

   1、查看proxy的日志情況,無任何異常信息反饋

   2、查看代理對應的mysql,無異常等待時間

   3、查看代理和數據庫所在的主機性能,CPU、內存、網絡、IO指標都正常

   4、嘗試重啟數據庫和代理進程,問題未解決

   5、通過隊列的“細節”選項,查看堵塞的監控項情況,發現有大量的容器主機節點的監控信息

   6、查看對應主機的監控信息,發現通過自動發現模版,掃描出10多萬個監控項

 

   這個也是直接導致積壓的原因

   經確認,這一批容器節點中的pod之前出現接近一千多次的異常重啟,使proxy產生大量異常的監控項導致

   將這幾個容器主機的監控置為失效后,隊列瞬間恢復正常

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM