【原】關於使用Sklearn進行數據預處理 —— 缺失值（Missing Value）處理

本文轉載自查看原文 2014-12-09 14:12 27900 機器學習和數據挖掘/ Python

關於缺失值（missing value）的處理

在sklearn的preprocessing包中包含了對數據集中缺失值的處理，主要是應用Imputer類進行處理。

首先需要說明的是，numpy的數組中可以使用np.nan/np.NaN（Not A Number）來代替缺失值，對於數組中是否存在nan可以使用np.isnan()來判定。

使用type(np.nan)或者type(np.NaN)可以發現改值其實屬於float類型，代碼如下：

因此，如果要進行處理的數據集中包含缺失值一般步驟如下：

1、使用字符串'nan'來代替數據集中的缺失值；

2、將該數據集轉換為浮點型便可以得到包含np.nan的數據集；

3、使用sklearn.preprocessing.Imputer類來處理使用np.nan對缺失值進行編碼過的數據集。

代碼如下：

 
          
           
             
             
               >>>  
               from 
               sklearn.preprocessing  
               import 
               Imputer 
              
 
               >>> imp  
               = 
               Imputer(missing_values 
               = 
               'NaN' 
               , strategy 
               = 
               'mean' 
               , axis 
               = 
               0 
               ) 
              
 
               >>> X 
               = 
               np.array([[ 
               1 
               ,  
               2 
               ], [np.nan,  
               3 
               ], [ 
               7 
               ,  
               6 
               ]]) 
              
 
               >>> Y 
               = 
               [[np.nan,  
               2 
               ], [ 
               6 
               , np.nan], [ 
               7 
               ,  
               6 
               ]] 
              
 
               >>> imp.fit(X) 
              
 
               Imputer(axis 
               = 
               0 
               , copy 
               = 
               True 
               , missing_values 
               = 
               'NaN' 
               , strategy 
               = 
               'mean' 
               , verbose 
               = 
               0 
               ) 
              
 
               >>> imp.transform(Y) 
              
 
               array([[  
               4.        
               ,   
               2.        
               ], 
              
 
                       
               [  
               6.        
               ,   
               3.66666667 
               ], 
              
 
                       
               [  
               7.        
               ,   
               6.        
               ]]) 
              
 
           
 
          
        

上述代碼使用數組X去“訓練”一個Imputer類，然后用該類的對象去處理數組Y中的缺失值，缺失值的處理方式是使用X中的均值（axis=0表示按列進行）代替Y中的缺失值。

當然也可以使用imp對象來對X數組本身進行處理。

通常，我們的數據都保存在文件中，也不一定都是Numpy數組生成的，因此缺失值可能不一定是使用nan來編碼的，對於這種情況可以參考以下代碼：

 
               >>> line 
               = 
               '1,?' 
              
               >>> line 
               = 
               line.replace( 
               ',?' 
               , 
               ',nan' 
               ) 
              
               >>> line 
              
               '1,nan' 
              
               >>> Z 
               = 
               line.split( 
               ',' 
               ) 
              
               >>> Z 
              
               [ 
               '1' 
               ,  
               'nan' 
               ] 
              
               >>> Z 
               = 
               np.array(Z,dtype 
               = 
               float 
               ) 
              
               >>> Z 
              
               array([   
               1. 
               ,  nan]) 
              
               >>> imp.transform(Z) 
              
               array([[  
               1.        
               ,   
               3.66666667 
               ]])

上述代碼line模擬從文件中讀取出來的一行數據，使用nan來代替原始數據中的缺失值編碼，將其轉換為浮點型，然后使用X中的均值填補Z中的缺失值。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用sklearn進行數據挖掘-房價預測(4)—數據預處理數據預處理-缺失值數據預處理 - 處理缺失值數據預處理 | 使用 Pandas 進行數值型數據的標准化歸一化離散化二值化 python進行數據預處理-pandas sklearn數據預處理機器學習sklearn（五）：數據處理（二）缺失值處理 sklearn——數據數據預處理數據清洗之數據預處理重復值缺失值異常值數據離散化 matlab、sklearn 中的數據預處理