缺失值的常見填充方法

本文轉載自查看原文 2020-04-02 17:05 1005

（1）如果缺值的樣本占總數比例極高，我們可能就直接舍棄了，作為特征加入的話，可能反倒帶入noise，影響最后的結果了；

（2）如果缺值的樣本適中，而該屬性非連續值特征屬性(比如說類目屬性)，那就把NaN作為一個新類別，加到類別特征中；

【注：NaN（Not a Number，非數）是計算機科學中數值數據類型的一類值，表示未定義或不可表示的值。】
（3）如果缺值的樣本適中，而該屬性為連續值特征屬性，有時候我們會考慮給定一個step(比如這里的age，我們可以考慮每隔2/3歲為一個步長)，然后把它離散化，之后把NaN作為一個type加到屬性類目中；

（4）有些情況下，缺失的值個數並不是特別多，那我們也可以試着根據已有的值，擬合一下數據，補充上。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spss缺失值填充步驟 python 特征缺失值填充 pandas缺失值填充時遇到的問題不同缺失值的刪除方法機器學習之缺失值的處理方法以及各種方法的優劣機器學習缺失值處理方法匯總 KNNImputer：一種可靠的缺失值插補方法 python字典dict處理缺失值的若干方法處理缺失值--處理步驟、識別缺失值使用Python預測缺失值