數據質量及數據清洗方法


先對其進行介紹:
   數據清洗(Data cleaning)– 對數據進行重新審查和校驗的過程,目的在於刪除重復信息、糾正存在的錯誤,並提供數據一致性。[1]  
數據清洗從名字上也看的出就是把“臟”的“洗掉”,指發現並糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。因為 數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“ 臟數據”。我們要按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之后再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。數據清洗是與問卷審核不同,錄入后的數據清理一般是由 計算機而不是人工完成

殘缺數據

這一類數據主要是一些應該有的信息缺失,如 供應商的名稱、 分公司的名稱、客戶的區域信息缺失、業務系統中主表與明細表不能匹配等。對於這一類數據過濾出來,按缺失的內容分別寫入不同Excel文件向客戶提交,要求在規定的時間內補全。補全后才寫入 數據倉庫

錯誤數據

這一類錯誤產生的原因是業務系統不夠健全,在接收輸入后沒有進行判斷直接寫入 后台數據庫造成的,比如數值數據輸成全角數字 字符、字符串數據后面有一個回車操作、日期格式不正確、日期越界等。這一類數據也要分類,對於類似於 全角字符、數據前后有不可見字符的問題,只能通過寫 SQL語句的方式找出來,然后要求客戶在業務系統修正之后抽取。日期格式不正確的或者是日期越界的這一類錯誤會導致ETL運行失敗,這一類錯誤需要去業務 系統數據庫SQL的方式挑出來,交給業務主管部門要求限期修正,修正之后再抽取。

重復數據

對於這一類數據——特別是維表中會出現這種情況——將重復數據記錄的所有字段導出來,讓客戶確認並整理。
數據清洗是一個反復的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對於是否過濾,是否修正一般要求客戶確認,對於過濾掉的數據,寫入 Excel文件或者將過濾數據寫入數據表,在ETL開發的初期可以每天向業務單位發送過濾數據的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證數據的依據。數據清洗需要注意的是不要將有用的數據過濾掉,對於每個過濾規則認真進行驗證,並要用戶確認。
 
---------------
數據質量及數據清洗方法
 

本文主要討論實例層數據質量問題

  • 數據質量評價(12個維度)

1)數據規范(Data specification):對數據標准、 數據模型、業務規則、元數據和參考數據進行有關存在性、完整性、質量及歸檔的測量標准; 
      2)數據完整性准則(Data integrity fundamentals):對數據進行有關存在性、有效性、結構、內容及其他基本數據特征的測量標准; 
      3)重復(Duplication):對存在於系統內或系統間的特定字段、記錄或數據集意外重復的測量標准; 
      4)准確性(Accuracy):對數據內容正確性進行測量的標准; 
      5)一致性和同步(Consistency and synchronization):對各種不同的數據倉庫、應用和系統中所存儲或使用的信息等價程度的測量,以及使數據等價處理流程的測量標准; 
      6)及時性和可用性(Timeliness and availability):在預期時段內數據對特定應用的及時程度和可用程度的測量標准; 
      7)易用性和可維護性(Ease of use and maintainability):對數據可被訪問和使用的程度,以及數據能被更新、維護和管理程度的測量標准; 
      8)數據覆蓋(Data coverage):相對於數據總體或全體相關對象數據的可用性和全面性的測量標准; 
      9)表達質量(Presentation quality);如何進行有效信息表達以及如何從用戶中收集信息的測量標准; 
      10)可理解性、相關性和可信度(Perception,relevance and trust):數據質量的可理解性和數據質量中執行度的測量標准,以及對業務所需數據的重要性、實用性及相關性的測量標准; 
      11)數據衰變(Data decay):對數據負面變化率的測量標准; 
      12)效用性(Transactability):數據產生期望業務交易或結果程度的測量標准。
      在評估項目數據質量過程中,需先選取幾個合適的數據質量維度,再針對每個所選維度,制定評估方案,選擇合適的評估手段進行測量,最后合並和分析所有質量評估結果。

  • 清洗方法

       1)缺失數據處理

2)相似重復對象檢測

3)異常數據處理

4)邏輯錯誤檢測

5)不一致數據

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM