(三)数据预处理过程简介


一、数据预处理过程包括

(一)Attribute Selection(字段选择)

  • Data Integration(数据整合)  多重数据源的整合问题

 

• 消除数据不一致
  台币 VS. 美金
• 消除数据重复性  
  A及B数据表都有某会员的数据

 

(二)Data Cleansing(数据清洗)

  •  Wrong Value(错误值)
  •  Outlier(离群值)
  •  Missing Value(空值)

  注意:数据清洗阶段,最重要的第一步是数据质量报告,数据质量报告3张表牢记:第一,字段汇总情况表;第二,数值型字段情况表;第三,类别性字段情况表。

  

 

(三) Attribute Enrichment(字段扩充)

  • 外部数据整合
  • 内部数据的统整(Data Aggregation)
       利用旧字段将其加总、统计做初步整理,使得数据更适合探勘

(四)Data Coding(数据编码)

  • Data Transformation(数据转换)
  • Data Reduction(数据精简)
  1. Record Reduction(记录精简)
  2. Attribute Value Reduction(域值精简)
  3. Attribute Reduction(字段精简)

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM