福利
Prometheus監控實戰PDF電子書下載
鏈接:https://pan.baidu.com/s/1QH4Kvha5g70OhYQdp4YsfQ
提取碼:oou5
若你喜歡該資料,請購買該資料原版……以及不用於商業用途,或僅用於研究目的,24小時內刪除。
以下部分為我個人的閱讀分享,即所謂的化重點部分
正文開始
監控應該服務於兩個方面:一個是技術(提升技術),一個是業務(保證服務)
Zabbix等監控使用的靜態閥值的缺點。需要考慮到系統的動態性,復雜性
底層系統的監控對於實際業務的價值不大.不能說你系統沒問題,應用就沒有問題。對底層操作系統的監控,只適合作為監控輔助
監控順序應該先從靠近客戶側開始,業務監控為主,應用監控為輔,系統監控次之。
監控內容應該要准確。例如不應該只監控HTTP200狀態嗎,還應該監控到具體的業務層面,例如頁面是否正常顯示,客戶訪問延遲有多少,訪問失敗率是否過高等。
監控時盡量不要使用平均值等指標,而應該使用百分位數,加上其他指標,建議是50分位數,90分位數,最大值。這里以100個用戶訪問站點的時間為例,解釋一下所謂的百分位數,即所有用戶訪問站點的時間從小到大排列,其中前面90個用戶都在3秒甚至更短的時間內成功訪問到站點,那么我們就可以說用戶訪問站點的90分位數的時間是3秒,換句話說就是90%都在3秒甚至更短的時間內成功訪問到站點。
對於系統層面的監控,我們應該采用USE模式。其中U(使用率),S(飽和度),E(錯誤率)
對於應用程序的監控,我們應該采用谷歌的四大環境指標——延遲,流量,錯誤,飽和度
監控周期應該盡可能頻繁,避免導致檢查間隔期丟失關鍵事件
監控服務應該盡可能自動化,自服務,減少人為的后期配置
監控方法分為探針和內省,探針針對的是從外部探測應用服務狀態,例如http返回碼,ICMP檢查等。內省是針對檢查應用程序內部運行狀態,更適合報告和診斷,探針則是適合發現問題
指標類型分為:測量型(上下浮動),計數型(累加,可重置歸零),直方圖(相當於頻率分布區間)