数据预处理的一般流程


1.去除唯一属性

类似于身份证信息,编号这类的属性,对数据分析无实际意义作用,在数据预处理的过程中我们将其删除。

 

2.缺失值填补

(1)均值填补:使用属性的平均值进行填补。

(2)同类均值填补:将样本进行分类,然后将缺失值所在类的属性均值拿来进行填补。

(3)众数填补:属性值出现最多的拿来填补。

(4)建模预测:将缺失的属性拿来作为预测的目标,将数据集按照是否含有特定属性的缺失值分为两类,利用模型预测值进行填补。

(5)高维映射

(6)多重差补

 

3.特征二值化

将数值型的属性按照阈值转换为布尔值的属性。用户根据具体问题设定一个阈值作为分割点,将属性值划分为0和1两种。

 

4.特征编码


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM