================================================================================================
1、Zabbix客戶端日志出現(Not all processes could be identified,如何解決
場景:因為使用了netstat -p參數。
權限問題,zabbix_agentd是zabbix用戶啟動的,默認不能執行netstat -p等命令,導致從服務器取到的自動發現腳本為空
(Not all processes could be identified, non-owned process info
will not be shown, you would have to be root to see it all.)
解決方法 :
chmod +s /bin/netstat
為了方便普通用戶執行一些特權命令,SUID/SGID程序允許普通用戶以root身份暫時執行該程序,並在執行結束后再恢復身份。
=================================================================================================
=================================================================================================
2、zabbix_server 不能監聽端口tcp 10051 (zabbix server is not running)
安裝配置全部OK,
status顯示正常運行
使用netstat -untlap |grep 10051
未查到任何結果
以上現象可以打開日志文件查看原因排錯
cat /tmp/zabbix_server.log
一種:因為mysql root 用戶登錄設置密碼造成的
解決方法:
1、登錄mysql ,set password=password("");
重啟mysql 和 zabbix_server 服務即可恢復正常
2、登錄mysql
grant all on zabbix.* to 'zabbixuser'@'%' identified by 'zabbixpass' with grant;
3、如果日志報錯如下:
1635:20140706:015834.413 [Z3001] connection to database ‘zabbix’ failed: [2002] Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’ (2)
1635:20140706:015834.413 Database is down. Reconnecting in 10 seconds.
看來是mysql sock錯誤了。 找到 #DBSocket=/tmp/mysql.sock 去掉前面的#注釋即可。
以上三種方法都嘗試一遍。
=====================================================================================================
===================================================
3、Zabbix報警 icmp pinger processes more than 75% busy
===================================================
================================================================================================================================
4、zabbix unreachable poller processes more than 75 busy
unreachable poller processes 一直在處於busy的狀態,那這個具體代表什么意思呢,查看官方文檔zabbix internal process、unreachable poller - poller for unreachable devices 用於輪詢不可到達到的設備。
可能情況:
1.通過Zabbix agent采集數據的設備處於moniting的狀態但是此時機器死機或其他原因導致zabbix agent死掉server獲取不到數據,此時unreachable poller就會升高。
2.通過Zabbix agent采集數據的設備處於moniting的狀態但是server向agent獲取數據時時間過長,經常超過server設置的timeout時間,此時unreachable poller就會升高。
3.支撐Zabbix的MySQL卡住了,Zabbix服務器的IO卡住了都有可能,Zabbix進程分配到內存不足都有可能。
一個簡單的方法是增加Zabbix Server啟動時初始化的進程數量,這樣直接增加了輪詢的負載量,從比例上來講忙的情況就少了
=================================================================================================================================
===========================================================
5、Zabbix alerter processes more than 75% busy
收到幾百條zabbix告警信息:
Zabbix alerter processes more than 75% busy
可能原因:
zabbix的數據庫問題
zabbix服務器的IO負載
zabbix進程分配到內存不足
網絡延時或者不通
處理方法:
==========================================================
=====================================================================
6、zabbix-server服務掛了,啟動后又自動停機了,並且日志中很多下面這個錯誤
報警提示
Zabbix value cache working in low memory mode
Less than 25% free in the configuration cache
====================================================================================
=============================================================================================================================
7、zabbix-server日志報錯,提示connection to database 'zabbix' failed: [1040] Too many connections錯誤,mariadb正常。想到應該是mysql最大連接數問題。
修改mysql最大連接數的鏈接:
http://blog.51cto.com/net881004/2089198
==============================================================================================================================
===============================================================================================================================
8、報警提示More than 100 items having missing data for more than 10 minutes和Zabbix poller processes more than 75% busy錯誤。
修改配置文件增大線程數和緩存
================================================================================================================================
======================================================
9、server日志很多first network error, wait for 15 seconds報錯
server配置文件Timeout時間改大點,我改成了30s。
======================================================
=================================================================
10、zabbix告警“Zabbix poller processes more than 75% busy”(網友)
告警原因:
1.某個進程卡住了,
2.僵屍進程出錯,太多,導致慢了
3.網絡延遲(可忽略)
4.zabbix消耗的內存多了
告警危害:
普通告警,暫無危害(但是最好處理)
處理方法:
一:簡單,粗暴(重啟zabbix-server可結合定時任務使用)
service zabbix-server restart
crontab -e 調出Cron編輯器中增加一個計划:
@daily service zabbix-server restart > /dev/null 2>&1
二:編輯Zabbix Server的配置文件/etc/zabbix/zabbix_server.conf,找到配置StartPollers的段落:
### Option: StartPollers
# Number of pre-forked instances of pollers.
#
# Mandatory: no
# Range: 0-1000
# Default:
# StartPollers=5
取消StartPollers=一行的注釋或者直接在后面增加:
StartPollers=10
將StartPollers改成多少取決於服務器的性能和監控的數量,將StartPollers設置成12之后就再沒有遇到過警報。如果內存足夠的話可以設置更高。
==================================================================================================================
============================================================================================================================
11、早上收到很多報警郵件,官網訪問不了,很多服務器端口不通。但是用手機訪問官網卻可以訪問,郵件里面很多Zabbix alerter processes more than 75% busy、Zabbix http poller processes more than 75% busy、和端口不通的報警信息。
由於之前優化過zabbix配置,所以覺得應該不是zabbix配置的問題。可能是那時候zabbix所在網絡不通或者延時造成的(確認后是機房那邊網絡斷開了2個小時,恢復后這些報警信息才發送出來了)。看來要針對zabbix服務器本身在異地做個監控,有時間弄個nagios看看。
=============================================================================================================================