常用監控
zabbix(主流)
監控模式:主動和被動都可以
頁面:3.0開始變漂亮,2.0很丑
超過2000+機器會卡機或者宕機,所以小米要開發自己的監控系統
nagios(主流)
openfalcon(國內比較好的監控系統,小米寫的,作者現轉到了滴滴打車,用Go語言寫的,自己可以寫各種插件)
cacti
gridcontrol(用Perl語言寫的,Oracle出的監控數據庫,也可以監控主機)
ganglia
常見監控需求
硬件信息
硬盤損壞(需要借助工具或者插件去定制)
網絡監控
網絡流量、丟包率
系統監控
cpu\ram\disk\load\io
應用監控
db,web,queue,cache,middleware
服務狀態監控
url狀態 頁面是否被篡改 端口存活
mysql max connections...(並發連接數)
待處理消息
業務監控
業務穩定性
訂單數
在線用戶數
功能分析
1、一台主機,可以有多個監控項,cpu,ram,nic,disk,io,load
a--> cpu 90
ram 120
b--> cpu 60
disk 300
io 30
2、可以批量修改監控配置
主機組
服務模板
3、告警(故障升級)
Diaster
High
Warning
Info
Classfiled
4、歷史數據的存儲和優化
實現用最少的空間占用量存儲最多的有效數據
如何做到1s中之內去除一台主機上所有服務的5年的監控數據?
經典承載5000+機器的組合,Django+uWsgi+nginx部署
分布式監控項目詳細參考:http://www.cnblogs.com/alex3714/articles/5450798.html