數據質量檢測


完整性

1.Row Count 比較:

    1). 增量的ETL job

    2). 錯誤的ETL

    3). 在開發過程中容易丟失的測試:對每一個表run test case 表容量;(Year, Month, Week)

2. Row Trend 分析:數據總數和歷史趨勢不一致。

   1). source的異常變化

   2). ETL job和腳本中的異常update和delete操作。

  • 測試:分析總行數的趨勢; 一些重要的列看下趨勢還要看下ditnct;最好看下NULL值 (AVG Row count/7 days)(Row count/day)(Trend/3 days)

3. 數據刷新: 數據源的穩定性和失敗的job

          測試: 檢查source和target運行時間

一致性

1. ETL 邏輯:數據轉換清洗中的准確性

    1) 數據源和目標db的不一致
    2) 業務邏輯的不正確(add or update a measure, attribute 等等)
    3) 丟失外鍵
    4) 維度表和事實表中重復記錄

2. Cube 多位數據集
   1) 錯誤的hierarchy
   2) measures 不符合業務邏輯
   3) kpi 邏輯不正確

准確性

1. 數據驗證
     1) 表結構的改變
     2) 列長改變引起的不一致
     3) 數據類型不正確
2. 業務邏輯的驗證
    1) 維度表的時效性,一般是由於維度變化引起的。
    2) 一些小於0%或者>100%的異常
    3) 一些不期待的負值
   4) ETL中一些錯誤的mapping邏輯
   5) Email地址明顯的錯誤, 年齡,郵政編碼等
3. 用戶測試情景
  1) 用戶query結果和業務不一致
  2) 不同系統的報表結果不一樣

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM