分布式系統運維四個黃金指標是否MECE?


當我們設計復雜系統時,生產環境系統的可觀察性是必須的,期望通過觀察告訴我們什么時候,哪里出現了問題。

  • 平時了解服務運行狀況。
  • 異常時,可發現服務故障,並定位故障原因。
  • 事后,對異常點做分析,看是否在高峰期發生,或者持續更久,是否會出事故,如何解決。

運維黃金指標

觀察那些指標,按照《SRE:Google運維解密》中描述的, 監控的四個黃金指標如后: 延遲、流量、錯誤、飽和度。

四類運維監控指標的監控項

這四類監控指標,在具體的業務和基礎設施、中間件場景,要監控的項各有不同:

基礎設施 業務監控
錯誤類
  • 宕機;
  • 磁盤(壞盤或文件系統錯誤);
  • 進程或端口掛掉;
  • 網絡丟包;
  • 錯誤日志;
  • 業務狀態碼、錯誤碼走勢;
延遲類
  • IO等待;
  • 網絡延遲;
  • 接口、服務的平均耗時、TP90、TP99、TP999等;
  • DB、緩存的慢查詢;
流量類
  • 網絡和磁盤IO;
  • 服務層面的QPS、PV和UV;
  • 各狀態業務訂單TPM;
  • 針對音頻流媒體系統來說,這個指標可能是網絡I/O速率,或者並發會話數量;
  • 針對鍵值對存儲系統來說,指標可能是每秒交易數量,或每秒的讀取操作數量;
飽和度類
  • 系統資源利用率:CPU、內存、磁盤、網絡等;
  • 飽和度:等待線程數,隊列積壓長度;
  • 該服務是否可以正常處理兩倍的流量,是否可以應對10%的額外流量,或者甚至應對當前更少的流量?
  • 預測:看起來數據庫會在4個小時內填滿硬盤;

參看: 京東 運維監控的終極秘籍,盤它!

這些項的周同比、日環比、突增、歷史峰值等都需要關注。在百度做AIOPS時,還有些相關算法經驗。

參看 百度的經驗 3分鍾了解黃金指標異常檢測PPT 百度智能異常檢測實踐 王博演講:百度 AIOps 黃金指標異常檢測技術實踐

MECE

MECE是 Mutually Exclusive Collectively Exhaustive 的首字母簡寫。

四類黃金指標是否MECE?

這四類指標是否宏觀的就完全窮盡了呢?
我們看下面的思維導圖:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM