摘要:告警功能是各大雲平台必不可少的模塊,個性化的告警配置,為幫助用戶和運維人員及時發現問題發揮着重要作用。
本文分享自華為雲社區《GaussDB(DWS) 數據庫智能監控系統告警框架上線啦!》,作者:codefulture。
本文將從一下幾個方面介紹DMS告警框架:
- 數據庫智能監控系統告警框架的來源
- 告警框架的實現
- 告警框架的不足和期望
一、數據庫智能監控系統告警框架的簡介
告警功能是各大雲平台必不可少的模塊,包括阿里雲、騰訊雲,乃至華為雲本身都提供了十分豐富的告警功能。個性化的告警配置,為幫助用戶和運維人員及時發現問題發揮着重要作用。
數據庫智能監控系統(簡稱DMS)告警框架(以下簡稱告警框架)用於監控數據倉庫的集群信息,且基於8.1.1以上版本的集群進行開發,如果您的集群版本低於8.1.1或沒有安裝DMS,則不能適用次告警功能。
告警功能是結合產品自身需求、業務需求、客戶需求獨立進行設計與開發,為了能夠讓用戶更快速的熟悉和使用次功能,告警功能在設計之處也參照了其他平台的使用方式、相關概念,並結合自身情況進行調整,完成了初版的設計與開發。
二、告警框架的實現與使用
1. 告警框架的實現
在說具體實現之前,先了解下告警框架中涉及的相關概念。
- 告警指標:告警指標是實際監控的內容,如:CPU使用率、磁盤使用率、IO等。
- 告警策略:告警策略是觸發告警的最小單元,每一條策略針對一種告警指標。告警策略分為閾值策略、狀態策略等。
- 告警規則:告警規則是實際監測(任務調度)的最小單元,是告警策略的集合。告警規則包含自默認規則和自定義規則。
- 默認告警規則:默認規則是系統提供的基礎告警項,用戶只需根據業務簡單的配置,即可收到告警信息。
- 義告警規則:當默認告警規則不能滿足實際需求時,用戶可根據自己的實際需求創建自定義告警規則。
- 規則、告警策略、告警指標三者關系:一個告警規則(默認/自定義)可包含多個告警策略,並且規則中的策略存在不同關系,當前已知策略關系如下:
- 相互獨立(或):策略之間並無實際聯系,只要一個策略滿足條件則發送告警;
- 優先級:一般指同一規則下,所有策略監控的指標項相同,但觸發的閾值不同,按照閾值遞減順序判斷是否發送告警;
- 與:所有策略都滿足條件則發送告警。
了解了以上概念,再來說下告警框架的組成,告警框架主要分為三大部分,監控指標采集、告警策略定制、告警任務調度。
1-1. 監控指標采集
監控數據庫,必須要對數據庫各指標數據進行采集,通過合理的統計查詢,獲得實時或周期性的數據庫和集群的狀態,結合告警策略觸發告警。
1-2. 告警策略定制
下圖所示是告警策略的組成,通過各配置項的不同組合,達成多樣化的配置,后續版本的迭代中,會加入更多的可配置項,以支持更多的業務場景。
1-3. 告警任務調度
監控指標是周而復始的過程,需要一個穩定的調度器支撐告警框架的任務調度,目前采用的是分布式調度框架Quartz。下圖所示是調度任務的執行邏輯。
2. 告警框架的使用
DMS告警框架位於【數據倉庫服務】中的【告警管理】菜單中。
首頁提供了告警統計功能,包含了一周內發生的告警,用戶可查看統計數字和告警詳細信息。
點擊【查看告警規則】查看告警規則列表。
告警框架提供了自定義告警規則和默認告警規則,默認告警規則未系統內置,用戶可根絕自身需求添加自定義告警。
點擊【創建規則】或【修改】按鈕進入配置頁面。
目前可修改的內容只有“綁定集群”、“閾值”、“持續周期”、“抑制條件”、“告警級別”,其他選項,將在后續的版本中放開為用戶提供更豐富的配置選擇。
2-1. 各修改項說明
- 修改綁定集群可以設置次告警規則適用的集群范圍,默認為全部,可多選;
- 修改閾值可以調整觸發告警的上限或下限,每種指標默認提供了閾值范圍,可按照頁面提示和實際情況進行合理修改。
- 修改持續周期,可以拉長或縮短指標數據的查詢范圍,檢測的是長周期的指標變化趨勢,還是某時刻的指標異常變化。
- 修改抑制條件可以控制告警的發送頻率,處於抑制期的告警不會重復發送。
告警框架的不足與期望
DMS告警框架還在建設當中,存在諸多不足,譬如:還需提供更多的監控指標,支持多種策略配置方式,告警項的拓展不夠便捷等。
除了解決上述的痛點,更多的希望告警框架能夠和系統的功能模塊聯動起來,讓監控系統更“智能”。
想了解GuassDB(DWS)更多信息,歡迎微信搜索“GaussDB DWS”關注微信公眾號,和您分享最新最全的PB級數倉黑科技,后台還可獲取眾多學習資料哦~