一次zabbix代理隊列積壓的異常處理

本文轉載自查看原文 2019-11-20 12:59 608 zabbix

【問題現象】

在查詢多個監控網元性能數據時候，發現都有斷點，查看采集程序都正常，而隊列中有一個代理的隊列突然積壓了40多萬個指標未處理

【處理過程】

1、查看proxy的日志情況，無任何異常信息反饋

2、查看代理對應的mysql，無異常等待時間

3、查看代理和數據庫所在的主機性能，CPU、內存、網絡、IO指標都正常

4、嘗試重啟數據庫和代理進程，問題未解決

5、通過隊列的“細節”選項，查看堵塞的監控項情況，發現有大量的容器主機節點的監控信息

6、查看對應主機的監控信息，發現通過自動發現模版，掃描出10多萬個監控項

這個也是直接導致積壓的原因

經確認，這一批容器節點中的pod之前出現接近一千多次的異常重啟，使proxy產生大量異常的監控項導致

將這幾個容器主機的監控置為失效后，隊列瞬間恢復正常

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 記一次隊列積壓問題的分析、解決一次處理anaconda prompt異常的經歷記錄一次zabbix郵件告警搭建過程和問題處理 python之異常處理 HttpClient異常處理 Lua異常處理 Django 異常處理 Python之異常處理 NodeJS之異常處理 AMD異常處理