機器學習之缺失值的處理方法以及各種方法的優劣


1) 用數值進行填充

用平均值、中值、分位數、眾數、隨機值等替代。簡便快速但是效果一般,因為等於人為增加了噪聲。

2) 用算法擬合進行填充(常用的是隨機森林算法)

相對一較為准確。但是有一個根本缺陷,如果其他變量和缺失變量無關,則預測的結果無意義。如果預測結果相當准確,則又說明這個變量是沒必要加入建模的。

3) 對於缺失值很大的列直接刪除,或者是映射到高維

映射到高維舉例方法如下:若性別一列缺失較大,則可映射為男0,女1,不知2

這樣做的好處是完整保留了原始數據的全部信息、不用考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提升。而且只有在樣本量非常大的時候效果才好,否則會因為過於稀疏,效果很差

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM