sklearn 缺失值填補（總結）

本文轉載自查看原文 2018-12-22 12:27 2027 Data/ Python

首先查看數據形態：

data.shape

再查看數據類型和非空值的個數與比例

data.info()

使用SimpleImputer進行填補

from sklearn.impute import SimpleImputer as si
imp_mean=si()

默認是用均值進行填補，參數如下：

注意，numpy自帶的fillna只能填補np.nan，而此處則可以指定空值的類型。比如? 或N/A

當數據是連續型，一般用均值填補。數據是分類型，用眾數填補。

比如當空值是?時，使用0填充：

imp_0=si(missing_values="?",strategy='constant', fill_value=0)
imp_0=imp_0.fit_transform(data_)

注意此處，data是如果是0維，則要先變為一維：

data_=data.列名.values.reshape(-1.1)

除了用均值，0，眾數，中位數。還可用：算法、多重差補等。但是如用隨機森林進行填補，解釋性比較差。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sklearn：隨機森林_回歸樹_波士頓房價_填補缺失值數據缺失值、異常值的識別和填補使用隨機森林回歸填補缺失值 Sklearn筆記：缺失值處理機器學習sklearn（五）：數據處理（二）缺失值處理 python對空缺值填補方法（匯總）【原】關於使用Sklearn進行數據預處理 —— 缺失值（Missing Value）處理數據預處理第4篇：數據預處理（sklearn 插補缺失值） java 按日期范圍統計數據並填補缺失日期數據機器學習案例二：缺失時間序列數據填補與ESN(回聲狀態網絡）