數據作為大數據系統的核心,需要進行監控,合理的監控與報警策略不但可以幫助我們快速發現和定位故障,而且還可以智能化的預測可能發生的問題。我們可以根據業務的規則制定重點的監控指標,保證數據具備高質量。
在大數據的監控中,對數據質量進行監控是最為直接的。因為從數據使用者的角度來說,高質量的數據是指能夠充分滿足用戶使用要求的數據。
數據監控的本質是根據業務特點總結描述數據質量的指標,並對比這些指標的過去值與當前值。在當前值與過去值存在偏差時,需要排查和定位原因。主要關注一下4點:完整性、准確性、一致性和及時性。
完整性:數據的記錄和信息是否完整,是否存在缺失的情況
准確性:數據中記錄的信息是否准確,是否存在異常或錯誤的信息
一致性:同一指標在·不同的地方結果是否一致
及時性:保證數據能夠及時的產出,才能體現數據的價值。
常見的監控內控
1)以時間為維度對數據進行監控
2)對數據庫中的null和0值進行監控
3)對數據的值域進行監控
當數據中的某字段出現了合理值域以外的值,我們遍可以肯定系統出現了問題
4)對數據的重復性進行監控
在某些業務中,對數據的唯一性進行監控是有必要的
5)對數據中的時間進行監控
數據是否會存在未來數據“數據穿越”
等等
數據表類的檢查規則:
1)空值檢查模板
該模板檢查制定的字段中是否存在空值,當檢查字段的空值比列超過閾值時,觸發報警
2)值域檢查模板
檢查制定字段的值域是否在設置的區間或者序列中,當累計不符合該值域的數據比列超過設定的閾值時,觸發報警
3)格式檢查模板
該模板檢查指定字段是否滿足設定的格式類型,若不滿足的比列超過報警閾值,則觸發報警。
4)唯一檢查模板
5)精確度檢查模板
6)數據集比對檢查模板
7)自定義腳本檢查模板
8)平衡性檢查模板
9)表數據量波動檢查模板
10)字段波動檢查模板
工作流類的檢查規則
1)完成時間點檢查模板
完成時間點檢查模板:該模板檢查指定工作流任務是否在截止時間點前完成,若未完成,則觸發報警
工作流類的檢查規則主要解決離線任務的執行效率下不能滿足業務對數據及時性的要求,通過監控配置規則,以保證數據在規定時間點生成。如果任務沒有完成,則及時觸發報警,從而保證數據在業務決策前已經生成
目錄類的檢查規則
以hadoop為中心的大數據生態,底層數據存儲都是基於hdfs。基於數據存儲路徑的質量監控規則,通常用於發現主備集群數據不一致的問題,這也是保證數據質量的一種方式。該功能的核心:數據質量監控平台每天定時將主備集群的hdfs目錄大小、路徑等信息同步到mysql,當需要使用監控規則對某個目錄進行監控時,可快速獲取並能夠進行比對檢查。
1)目錄大小波動檢查模板
2)主備目錄大小檢查模板
該模板檢查指定的主集群和備份集群的目錄大小是否相等,如果不相等則觸發報警
數據結構類的檢查規則
針對表的字段個數、字段名、字段長度和字段類型等進行一致性檢查。