- 數據質量的定義
- 從數據使用者的角度定義,高質量的數據應該是能充分滿足用戶使用要求的數據。
- 數據質量的標准
- 1:及時性:數據獲取是否及時,主要指數據提取、傳送、轉換、加載、展現的及時性。在數據處理的各個環節,都會涉及到及時性。我們一般考慮兩個方面第一就是接口數據是否能夠及時的抽取過來。第二就是展現層能否及時的展現出來。
-
2:完整性:是指數據是否完整,描述的數據要素,要素屬性及要素關系存在或不存在,主要包括實體缺失、屬性缺失、記錄缺失以及主外鍵參照完整性的內容。
-
3:一致性:第一就是原始數據即文件接口和入庫的數據記錄條數是一致的。第二就是同一指標在任何地方都應該保持一致。
-
4:有效性:描述數據取值是否在界定的值域范圍內,主要包括數據格式、數據類型、值域和相關業務規則的有效性。
- 5:准確性:主要是指指標算法、數據處理過程的准確性。這個准確性主要是通過元數據管理中定義的指標的算法、數據處理順序和人工檢查相結合的方式來保證。
- 數據倉庫中數據質量檢查
- 接口數據的檢查。接口數據主要有文件和數據庫
- 接口內容本身的數據質量問題: 及時性,有效性,完整性
- 文件接口采集程序的監控:文件接口采集程序是否正常啟動,正常結束等
- 數據倉庫層面的數據
- 數據處理過程監控:是否按時調度,是否成功。
- 關鍵指標的檢查:
- 基礎指標的檢查
- 數值檢查:主要是通過檢查單個指標的數值來發現指標的異常和突變等情況。這里需要設置相應的閥值來進行。
- 波動檢查:主要是同比或者環比的檢查。先計算指標的同比或環比波動率,然后與預定的波動率上下限(閾值)進行比較。
- 關聯檢查:對兩個存在關聯關系的指標(如同增、同減正關聯關系),分析變化和波動情況。
- 平衡檢查:通過對若干個指標值的簡單四則運算(加、減、乘、除),來檢驗各個指標間潛在的平衡或其他比較關系。
- 加權波動檢查:通過對單個指標的基礎檢查結果和影響因素的加權計算分析,綜合檢查指標的波動和變化情況。
- 基礎指標的檢查
- 接口數據的檢查。接口數據主要有文件和數據庫
- 數據質量的評測流程
- 數據質量需求分析
- 確定評價對象和范圍
- 選取數據質量維度及評價標准
- 確定質量測度及評價方法
- 運用方法進行評價
- 結果分析和評級
- 質量結果和報告
- 數據質量的評估方法
- 基本概念
- 模型M=<D,I,R,W ,E,S>
- D(Dataset)是需要進行評估的數據集
- I(Indicator)數據集D上需要進行評估的指標,如完整性、准確性、一致性等
- R(Rule)與評估指標相對應的規則
- W(Weight)賦予規則R的權值(大於0的整數),描述了該規則在所有規則中所占的比重。
- E(Expectation)對規則R給出的期望值(介於0到100之間的實數),是在評估之前對該規則所期望得到的結果。
- S(reSult)規則R對應的最終結果(介於0到100之間的實數),是在檢測該規則后所得的結果。
-
- 構造技術
-
構造數據質量評估模型要經過4個步驟:確定數據集評估應用視圖,選擇評估指標,制定規則集,計算規則結果得分。
-
下面將結合具體的實例來說明如何構造數據質量評估模型。
-
1、確定數據集評估應用視圖
在進行數據質量評估時,首先要提出數據質量評估的需求,要確定哪些數據是用戶感興趣的(包括數據庫、數據庫中的數據集和數據集上的字段),對它們建立對應的用戶視圖。
2、選擇評估指標
對於每個給定的數據集,選擇所需要的評估指標: 對於Customer,選擇完整性和有效性兩個指標。
3、制定規則集
根據選擇的評估指標,制定數據質量評估規則,並確定它們相應的權值和期望值。對於Customer,針對完整性和有效性指標制定以下規則:
(1)ID 非空(權值:5,期望值:90):完整性
(2)ID長度為18位(權值:10,期望值:90):准確性
(3)Sex值為 F 或 M (權值:10,期望值:98):有效性
4、計算規則結果得分
對於規則集中的每條規則R,檢查數據集上的數據實例,計算滿足R的數據元組的百分比,得到R對應的結果S。計算數據元組總數的百分比,就是最終結果:假設它們的結果分別為95,90,90。
-
- 基本概念
參考
http://www.chinaz.com/web/2012/1112/281738.shtml
http://blog.sina.com.cn/s/blog_66239fdb0100z9yf.html
http://www.5ykj.com/Article/xslwqygl/98050.htm