數據缺失值、異常值的識別和填補


-------------原文  https://wenku.baidu.com/view/aaa16788a48da0116c175f0e7cd184254b351bb0.html  ------

常見的插補方法簡述

1    剔除法

如果缺失值所占比例小的話,這個方法十分有效。但是會丟棄了大量隱藏在這些對象中的信息

2 均值插補法

分為數值型和非數值型來分別進行處理。如果是數值型,用該對象的平均值來填充該缺失的變量值。如果是非數值型,用統計學中的眾數來填充。

3  熱卡填充法

在數據庫中找打一個與它最相似的對象,然后用這個對象的值來進行填充。

4 回歸替換法

需要首先選擇若干個預測缺失值的自變量,然后建議回歸方程估計缺失值。即用缺失條件的期望值來進行替換。

5 多重替換法


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM