作為一個運維,做監控的時候一定要了解我們需要監控的對象,我們監控的范圍,以及我們根據業務判定監控要達到的精准度。
監控對象:
1. 監控對象的理解:CPU是怎么工作的,原理
2. 監控對象的指標:CPU使用率 CPU負載 CPU個數 上下文切換
3. 確定性能基准線:怎么樣才算故障?CPU負載多上才算高
監控范圍:
1.硬件監控服務器的硬件故障
2.操作系統監控 CPU、內存、硬盤、IO、進程
3.應用服務監控 nginx、MySQL、等服務
4.業務監控
監控報警精度:
1.什么樣的情況報警,一達到閾值就報警?根據監控指標的重要性去設置,對於次要性的指標盡量減少誤報。對於重要指標,可以設置敏感一些。
2.什么樣的報警方式,微信?短信?電話?郵件?還是得根據報警的級別來定。
硬件監控
- 使用IPMI
- 機房巡檢
硬件監控,最常用的就是機房巡檢,我們公司也是這么干的。
高端的可能會用IPMI。
系統監控
- cpu
- 內存
- I/O(網絡、磁盤)
系統監控就是監控主機的健康情況,但是我們需要明確的是監控的閾值在哪里,cpu什么樣才叫不正常,內存利用率多少比較合適。
還有磁盤的監控往往使用的zabbix自帶的模板。
但是網絡的監控是最復雜的,因為從整個系統來說,我堅信網絡是整個系統運行的基石,而且網絡是一個相互以及流動的過程,不能以單概全,所以網絡的監控不能僅僅通過點對點的可達性去判斷整個系統的運行情況。
應用監控
- nginx
- tomcat
- php
- mysql
- oracle
- web
應用監控主要就是監控應用的可靠性、可用性。
總結
其實一個完整的監控體系應該是包括:
- 硬件監控
- 系統監控
- 服務監控
- 性能監控
- 日志監控
- 安全監控
- 網絡監控
- 業務監控
- 流量監控
但是對於一個中小型公司來說,沒有必要分的那么細,搞好基礎的 硬件、系統、服務監控就足以支撐公司的運維體系了。