1) 用數值進行填充
用平均值、中值、分位數、眾數、隨機值等替代。簡便快速但是效果一般,因為等於人為增加了噪聲。
2) 用算法擬合進行填充(常用的是隨機森林算法)
相對一較為准確。但是有一個根本缺陷,如果其他變量和缺失變量無關,則預測的結果無意義。如果預測結果相當准確,則又說明這個變量是沒必要加入建模的。
3) 對於缺失值很大的列直接刪除,或者是映射到高維
映射到高維舉例方法如下:若性別一列缺失較大,則可映射為男0,女1,不知2
這樣做的好處是完整保留了原始數據的全部信息、不用考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提升。而且只有在樣本量非常大的時候效果才好,否則會因為過於稀疏,效果很差。
