有一個監控一直都是正常的,今天突然收到報警郵件,上服務器查看服務又是正常的,但是報警郵件還是沒恢復
監控端進行腳本測試,發現是正常的
到監控端使用zabbix_get -s ip -p 端口 -k 監控的key 測試報ZBX_NOTSUPPORTED: Timeout while executing a shell script.
檢查客戶端Timeout配置,改為最大的30秒過后才超時,將客戶端的進程數改成10, StartAgents=10 然后重啟
還是一樣在報錯。
到zabbix web端查看該服務器的這個監控項的最新數據,發現一直沒獲取到最新數據,顯示的還是報警時間的數據。
然后到客戶端檢查進程 ps -ef | grep zabbix_agentd 發現變成了僵屍進程,之前使用/etc/ini.d/zabbix_agentd restart雖然提示重啟成功,但實際上並未重啟成功
接下來將進程一個個的給kill掉,然后在執行/etc/ini.d/zabbix_agentd start,在到服務端執行zabbix_get -s ip -p 端口 -k 監控的key 這次可以正常獲取到數據了
在等幾分鍾后,web監控頁面也獲取到了最新的數據,報警也提示恢復正常了