脏数据+清洗数据


什么是脏数据?

数据仓库中的数据是面向某一个主题的数据集合,这些数据从多个业务系统中抽取,并且存在历史数据。这样就避免不了存在数据错误、数据冲突。这些错误数据和冲突数据就被称为脏数据。比如:不完整的数据、错误的数据、重复的数据。

 

洗数据:发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

 

分类:

筛选、清除、补充、纠正

 

作用:数据清洗是数据预处理的第一步,也是保证后续结果正确的重要一环。若不萌保证数据的正确性,我们可能得到错误的结果,比如因小数点错误而造成数据放大十倍,百倍甚至更大等。在数据量较大的项目中,数据清洗时间可达整个数据分析过程的一半或以上。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM