殘缺數據
錯誤數據
重復數據
本文主要討論實例層數據質量問題
- 數據質量評價(12個維度)
1)數據規范(Data specification):對數據標准、 數據模型、業務規則、元數據和參考數據進行有關存在性、完整性、質量及歸檔的測量標准;
2)數據完整性准則(Data integrity fundamentals):對數據進行有關存在性、有效性、結構、內容及其他基本數據特征的測量標准;
3)重復(Duplication):對存在於系統內或系統間的特定字段、記錄或數據集意外重復的測量標准;
4)准確性(Accuracy):對數據內容正確性進行測量的標准;
5)一致性和同步(Consistency and synchronization):對各種不同的數據倉庫、應用和系統中所存儲或使用的信息等價程度的測量,以及使數據等價處理流程的測量標准;
6)及時性和可用性(Timeliness and availability):在預期時段內數據對特定應用的及時程度和可用程度的測量標准;
7)易用性和可維護性(Ease of use and maintainability):對數據可被訪問和使用的程度,以及數據能被更新、維護和管理程度的測量標准;
8)數據覆蓋(Data coverage):相對於數據總體或全體相關對象數據的可用性和全面性的測量標准;
9)表達質量(Presentation quality);如何進行有效信息表達以及如何從用戶中收集信息的測量標准;
10)可理解性、相關性和可信度(Perception,relevance and trust):數據質量的可理解性和數據質量中執行度的測量標准,以及對業務所需數據的重要性、實用性及相關性的測量標准;
11)數據衰變(Data decay):對數據負面變化率的測量標准;
12)效用性(Transactability):數據產生期望業務交易或結果程度的測量標准。
在評估項目數據質量過程中,需先選取幾個合適的數據質量維度,再針對每個所選維度,制定評估方案,選擇合適的評估手段進行測量,最后合並和分析所有質量評估結果。
- 清洗方法
1)缺失數據處理
2)相似重復對象檢測
3)異常數據處理
4)邏輯錯誤檢測
5)不一致數據