1.去除唯一属性
类似于身份证信息,编号这类的属性,对数据分析无实际意义作用,在数据预处理的过程中我们将其删除。
2.缺失值填补
(1)均值填补:使用属性的平均值进行填补。
(2)同类均值填补:将样本进行分类,然后将缺失值所在类的属性均值拿来进行填补。
(3)众数填补:属性值出现最多的拿来填补。
(4)建模预测:将缺失的属性拿来作为预测的目标,将数据集按照是否含有特定属性的缺失值分为两类,利用模型预测值进行填补。
(5)高维映射
(6)多重差补
3.特征二值化
将数值型的属性按照阈值转换为布尔值的属性。用户根据具体问题设定一个阈值作为分割点,将属性值划分为0和1两种。
4.特征编码