一、Metrics簡介
應用監控系統Metrics由Metrics.NET+InfluxDB+Grafana組合而成,通過客戶端Metrics.NET在業務代碼中埋點,Metrics.NET會把收集到數據存儲在InfluxDB數據庫中,然后通過Grafana來展示監控數據。其中,InfluxDB服務端部署的版本號是1.3.1,Grafana部署的版本號是4.0.1。下面將結合這3個工具來介紹如何實現對應用的監控。
Metrics.NET移植自Java的metrics,它是一個給CLR提供度量的工具包。在業務代碼中埋點Metrics.NET代碼后,就可以方便地對各技術指標、業務指標進行度量,如:共花多長時間完成某方法的執行、某方法在被執行的過程中共出現過幾次異常、某時間段內共下多少訂單量。Metrics.NET共提供5種度量類型:Gauge、Counter、Meter、Histogram以及Timer。其中Meter和Histogram這兩種度量類型目前可以完全滿足筆者所在公司的度量需求,所以,下面只介紹了Meter和Histogram這兩種,另外3個若有興趣可自行抽空去了解。
二、埋點Metrics.NET的方法
首先為需要收集Metrics.NET監控數據的業務項目引用Metrics.dll。
然后,在項目中的App.config/Web.config文件中加上如下配置信息:
1 <add key="AppID" value="150106"/>
2 <add key="Metrics.DBUri" value="http://139.198.13.12:4126/write"/>
3 <add key="Metrics.UserName" value="Arch"/>
4 <add key="Metrics.Password" value="Arch"/>
5 <add key="Metrics.Database" value="ArchDB"/>
1、Meter
Meter用於度量TPS(每秒處理的請求數)。
示例:模擬統計成功下單量、下單金額、失敗下單量。
調用Meter對象的Mark()方法:
1 static void CreateOrder()
2 {
3 try
4 {
5 // 省略關於下單的業務邏輯代碼
6 //......
7
8 // 分別統計成功下單量和下單金額,統一寫到MetrisKey中
9 MetricsKey.OrderCount.Mark();
10 if (n % 2 == 1)
11 {
12 MetricsKey.OrderMoneyCount.Mark("BuyerA", n);
13 }
14 else
15 {
16 MetricsKey.OrderMoneyCount.Mark("BuyerB", n);
17 }
18 }
19 catch (Exception)
20 {
21 // 統計失敗下單量,統一寫到MetrisKey中
22 MetricsKey.OrderErrorCount.Mark();
23
24 // 省略異常處理代碼......
25 }
26 }
2、Histogram
Histogram用於度量流數據中Value的分布情況,它不僅使您能像Meter一樣測量出TPS ,還能測量出最小值、最大值和平均值。使用場景如:統計服務器的延遲時間、統計某方法共執行多長時間。
示例:模擬統計航班查詢引擎方法的耗時情況。
調用Histogram對象的Update()方法:
1 private readonly Histogram searchFlightTime = MetricsHelper.Histogram("MetricsDemo.SearchFlightTime", Unit.Custom("ms"));
2
3 static void SearchFlight()
4 {
5 Stopwatch stopwatch = Stopwatch.StartNew();
6
7 // 模擬關於航班查詢的業務邏輯的代碼
8 Random random = new Random((int)DateTime.Now.Ticks & 0x0000FFFF);
9 var n = Random.Next(100);
10 Thread.Sleep(n);
11
12 stopwatch.Stop();
13
14 // 統計航班搜索耗時
15 searchFlightTime.Update(stopwatch.ElapsedMilliseconds);
16 }
三、Grafana配置
1、儀表盤設置
點擊位於下圖上方的Home圖標,會下拉彈出Dashboard列表:
點擊位於上圖下方的Create New按鈕,會進入到新建面板Panel頁面,點擊位於下圖上方的保存圖標按鈕:
在彈出的Save As...對話框中輸入Dashboard名稱,如Arch.OrderCountDemo,然后點擊Save按鈕進行保存:
2、面板(Panel)設置
點擊上面創建的【Arch.OrderCountDemo】Dashboard圖標,進入屬於這個Dashboard的面板(Panel)頁面:
點擊位於上圖的ADD ROW按鈕,進入下圖。其中,Graph表示以圖表(有折線圖、柱狀圖、散點圖、梯形圖)形式展示數據、Singlestat表示單個統計、Table表示以表格形式展示數據、PieChart表示以餅狀圖形式展示數據。這幾種統計類型的面板設置方式類似,本文將以Graph為例進行說明。
2.1、數據設置
點擊上圖的Graph圖標創建圖表:
點擊上圖的Panel Title,在彈出菜單中單擊Edit打開Panel編輯界面,即進入Metrics選項卡面板。
關於Meter的查詢數據語句配置一般如下:
關於Histogram的查詢數據語句配置一般如下:
其中,fill()一般被設為null,但當查詢時間范圍很大時(如1天),請用fill(0);另外,$appId、$serverIP、$summarize這3個變量是在模板(Templating)中設置,請看第3小節的介紹。
2.2、樣式配置
2.2.1、General選項卡用來設置Panel樣式
主要用來設置Panel的標題:
2.2.2、Axes選項卡用來設置坐標軸
Label表示設置左側Y軸旁顯示什么說明文字,另外,Unit表示設置左側Y軸數字的單位:
2.2.3、Legend選項卡用來設置顯示樣式
2.2.4 Display選項卡用來設置圖表樣式
Draw options子選項卡用來設置圖表顯示效果:
Draw Modes:Points表示設置是否在圖中顯示散點;
Mode Options:Fill表示設置填充度、Line Width表示設置圖表線的粗細、Point Radius表示設置圓點半徑的長度;
Stacking & Null value:Null value選擇null as zero時表示設置當該時間節點在InfluxDB中沒有記錄時,用0替代。
3、模板(Templating)設置
打開Templating設置頁面:
新建變量:
新建serverIP變量:
(在Query文本框處,輸的是:SHOW TAG VALUES WITH KEY = "ServerIP")
新建summarize變量,其中Values值可以自行添加或刪除,值與值之間用英文狀態的逗號隔開:
新建adhoc變量:
4、設置Time Range
一個Dashboard中,除了需要顯示實時監控數據外,有時還需要顯示歷史的監控數據,主要目的是要通過對歷史監控數據的觀察來預測未來的業務量走勢,那么需要重寫Time Range,即需要在Time range選項卡中進行設置。
例如,在一個Panel中需要顯示近24小時的歷史監控數據,那么請在這個Panel中加上如下配置:
5、告警設置
在Grafana當前版本(4.0.1)中,告警目前僅支持Graph類型的面板,在將來版本會添加Singlestat和Table類型面板的支持。另外,由於告警查詢語句不支持template變量,所以最好是對不使用template變量的Panel才設置告警。
5.1、設置通知規則
在左側菜單中選擇Alerting -> Notifications進入通知列表頁:
點擊New Notification按鈕新建一個通知:
在Name文本輸入框中,輸入通知名稱,類型Type選擇email。設置完成之后單擊Save按鈕,然后點擊Send Test按鈕測試下通知是否能夠發送成功。
5.2、設置告警規則
進入需要添加告警的Panel的編輯界面,轉到Alert選項卡,點擊Create Alert按鈕,進入Alert Config子選項卡界面進行配置,其中Evaluate every表示設置執行頻率,Conditions表示配置何時告警的條件(WHEN是選擇聚合函數的地方,OF用來設置時間段,IS ABOVE或者IS BELOW用來設置閾值)。
對Alert Config子選項卡界面的配置參考如下:
然后在Notifications子選項卡界面中配置通知規則:
5.3、暫停告警操作
在左側菜單中點擊Alerting -> Alert List進入告警規則列表頁,點擊暫停圖標按鈕就可以停止該告警:
四、其它說明
2、一個MetricsName對應一張數據表,建議明確定義MetricsName;
3、提供的Metrics.dll基於0.4.8的版本增加了Unit Count的返回,且適用於.NET Framework 4.5及其以上版本。
五、總結Metrics的價值
1、可以實時監控線上程序運行情況,形成閉環、不斷改進;
2、可以預測程序未來大致走向;
3、可以及時發現故障,消滅在用戶反饋之前;
4、Metrics.NET出現異常不影響業務流程;
5、可設置自動報警,即時發送郵件、短信、微信(通過API)。
六、Demo下載及更多資料