一次zabbix代理队列积压的异常处理

本文转载自查看原文 2019-11-20 12:59 608 zabbix

【问题现象】

在查询多个监控网元性能数据时候，发现都有断点，查看采集程序都正常，而队列中有一个代理的队列突然积压了40多万个指标未处理

【处理过程】

1、查看proxy的日志情况，无任何异常信息反馈

2、查看代理对应的mysql，无异常等待时间

3、查看代理和数据库所在的主机性能，CPU、内存、网络、IO指标都正常

4、尝试重启数据库和代理进程，问题未解决

5、通过队列的“细节”选项，查看堵塞的监控项情况，发现有大量的容器主机节点的监控信息

6、查看对应主机的监控信息，发现通过自动发现模版，扫描出10多万个监控项

这个也是直接导致积压的原因

经确认，这一批容器节点中的pod之前出现接近一千多次的异常重启，使proxy产生大量异常的监控项导致

将这几个容器主机的监控置为失效后，队列瞬间恢复正常

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 记一次队列积压问题的分析、解决一次处理anaconda prompt异常的经历记录一次zabbix邮件告警搭建过程和问题处理 python之异常处理 HttpClient异常处理 Lua异常处理 Django 异常处理 Python之异常处理 NodeJS之异常处理 AMD异常处理