當我們設計復雜系統時,生產環境系統的可觀察性是必須的,期望通過觀察告訴我們什么時候,哪里出現了問題。
- 平時了解服務運行狀況。
- 異常時,可發現服務故障,並定位故障原因。
- 事后,對異常點做分析,看是否在高峰期發生,或者持續更久,是否會出事故,如何解決。
運維黃金指標
觀察那些指標,按照《SRE:Google運維解密》中描述的, 監控的四個黃金指標如后: 延遲、流量、錯誤、飽和度。
四類運維監控指標的監控項
這四類監控指標,在具體的業務和基礎設施、中間件場景,要監控的項各有不同:
基礎設施 | 業務監控 | |
---|---|---|
錯誤類 |
|
|
延遲類 |
|
|
流量類 |
|
|
飽和度類 |
|
|
參看: 京東 運維監控的終極秘籍,盤它!
這些項的周同比、日環比、突增、歷史峰值等都需要關注。在百度做AIOPS時,還有些相關算法經驗。
- 流量類:流入系統的請求數量(百度是如何做智能流量異常檢測)、泊松分布。
- 錯誤類: 還記得概率課本中的二項分布嗎?在我們的網絡判障中發揮了大作用!、二項分布 。
- 延遲類: 高斯核密度估計
- 飽和度 : Beta分布核密度
參看 百度的經驗 3分鍾了解黃金指標異常檢測, PPT 百度智能異常檢測實踐 王博、 演講:百度 AIOps 黃金指標異常檢測技術實踐
MECE
MECE是 Mutually Exclusive Collectively Exhaustive 的首字母簡寫。
四類黃金指標是否MECE?
這四類指標是否宏觀的就完全窮盡了呢?
我們看下面的思維導圖: