什么是臟數據?
數據倉庫中的數據是面向某一個主題的數據集合,這些數據從多個業務系統中抽取,並且存在歷史數據。這樣就避免不了存在數據錯誤、數據沖突。這些錯誤數據和沖突數據就被稱為臟數據。比如:不完整的數據、錯誤的數據、重復的數據。
洗數據:發現並糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。
分類:
篩選、清除、補充、糾正
作用:數據清洗是數據預處理的第一步,也是保證后續結果正確的重要一環。若不萌保證數據的正確性,我們可能得到錯誤的結果,比如因小數點錯誤而造成數據放大十倍,百倍甚至更大等。在數據量較大的項目中,數據清洗時間可達整個數據分析過程的一半或以上。
