sklearn中的數據預處理和特征工程


  小伙伴們大家好~o( ̄▽ ̄)ブ,沉寂了這么久我又出來啦,這次先不翻譯優質的文章了,這次我們回到Python中的機器學習,看一下Sklearn中的數據預處理和特征工程,老規矩還是先強調一下我的開發環境是Jupyter lab,所用的庫和版本大家參考:

  Python 3.7.1(你的版本至少要3.4以上)

  Scikit-learn 0.20.0 (你的版本至少要0.19)

  Numpy 1.15.3, Pandas 0.23.4, Matplotlib 3.0.1, SciPy 1.1.0

 

1 sklearn中的數據預處理和特征工程

  sklearn中包含眾多數據預處理和特征工程相關的模塊,雖然剛接觸sklearn時,大家都會為其中包含的各種算法的廣度深度所震驚,但其實sklearn六大板塊中有兩塊都是關於數據預處理和特征工程的,兩個板塊互相交互,為建模之前的全部工程打下基礎。

  • 模塊preprocessing:幾乎包含數據預處理的所有內容

  • 模塊Impute:填補缺失值專用

  • 模塊feature_selection:包含特征選擇的各種方法的實踐

  • 模塊decomposition:包含降維算法

2 數據預處理 Preprocessing & Impute

2.1 數據無量綱化

  在機器學習算法實踐中,我們往往有着將不同規格的數據轉換到同一規格,或不同分布的數據轉換到某個特定分布的需求,這種需求統稱為將數據“無量綱化”。譬如梯度和矩陣為核心的算法中,譬如邏輯回歸,支持向量機,神經網絡,無量綱化可以加快求解速度;而在距離類模型,譬如K近鄰,K-Means聚類中,無量綱化可以幫我們提升模型精度,避免某一個取值范圍特別大的特征對距離計算造成影響。(一個特例是決策樹和樹的集成算法們,對決策樹我們不需要無量綱化,決策樹可以把任意數據都處理得很好。)

  數據的無量綱化可以是線性的,也可以是非線性的。線性的無量綱化包括中心化(Zero-centered或者Mean-subtraction)處理和縮放處理(Scale)。中心化的本質是讓所有記錄減去一個固定值,即讓數據樣本數據平移到某個位置。縮放的本質是通過除以一個固定值,將數據固定在某個范圍之中,取對數也算是一種縮放處理。

 

  • preprocessing.MinMaxScaler

  當數據(x)按照最小值中心化后,再按極差(最大值 - 最小值)縮放,數據移動了最小值個單位,並且會被收斂到[0,1]之間,而這個過程,就叫做數據歸一化(Normalization,又稱Min-Max Scaling)。注意,Normalization是歸一化,不是正則化,真正的正則化是regularization,不是數據預處理的一種手段。歸一化之后的數據服從正態分布,公式如下:

 

  在sklearn當中,我們使用preprocessing.MinMaxScaler來實現這個功能。MinMaxScaler有一個重要參數,feature_range,控制我們希望把數據壓縮到的范圍,默認是[0,1]。

from sklearn.preprocessing import MinMaxScaler
​
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
​
#不太熟悉numpy的小伙伴,能夠判斷data的結構嗎?
#如果換成表是什么樣子?
import pandas as pd
pd.DataFrame(data)
​
#實現歸一化
scaler = MinMaxScaler()                             #實例化
scaler = scaler.fit(data)                           #fit,在這里本質是生成min(x)和max(x)
result = scaler.transform(data)                     #通過接口導出結果
result
​
result_ = scaler.fit_transform(data)                #訓練和導出結果一步達成
​
scaler.inverse_transform(result)                    #將歸一化后的結果逆轉
#使用MinMaxScaler的參數feature_range實現將數據歸一化到[0,1]以外的范圍中
​
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10])         #依然實例化
result = scaler.fit_transform(data)                 #fit_transform一步導出結果
result
​
#當X中的特征數量非常多的時候,fit會報錯並表示,數據量太大了我計算不了
#此時使用partial_fit作為訓練接口
#scaler = scaler.partial_fit(data)

 

 

BONUS: 使用numpy來實現歸一化

import numpy as np
X = np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])
​
#歸一化
X_nor = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_nor
​
#逆轉歸一化
X_returned = X_nor * (X.max(axis=0) - X.min(axis=0)) + X.min(axis=0)
X_returned

 

  • preprocessing.StandardScaler

  當數據(x)按均值(μ)中心化后,再按標准差(σ)縮放,數據就會服從為均值為0,方差為1的正態分布(即標准正態分布),而這個過程,就叫做數據標准化(Standardization,又稱Z-score normalization),公式如下:

 
from sklearn.preprocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
​
scaler = StandardScaler()               #實例化
scaler.fit(data)                        #fit,本質是生成均值和方差
​
scaler.mean_                            #查看均值的屬性mean_
scaler.var_                             #查看方差的屬性var_
​
x_std = scaler.transform(data)          #通過接口導出結果
​
x_std.mean()                            #導出的結果是一個數組,用mean()查看均值
x_std.std()                             #用std()查看方差
​
scaler.fit_transform(data)              #使用fit_transform(data)一步達成結果
​
scaler.inverse_transform(x_std)         #使用inverse_transform逆轉標准化

 

  對於StandardScaler和MinMaxScaler來說,空值NaN會被當做是缺失值,在fit的時候忽略,在transform的時候保持缺失NaN的狀態顯示。並且,盡管去量綱化過程不是具體的算法,但在fit接口中,依然只允許導入至少二維數組,一維數組導入會報錯。通常來說,我們輸入的X會是我們的特征矩陣,現實案例中特征矩陣不太可能是一維所以不會存在這個問題。

 

  • StandardScaler和MinMaxScaler選哪個?

  看情況。大多數機器學習算法中,會選擇StandardScaler來進行特征縮放,因為MinMaxScaler對異常值非常敏感。在PCA,聚類,邏輯回歸,支持向量機,神經網絡這些算法中,StandardScaler往往是最好的選擇。

  MinMaxScaler在不涉及距離度量、梯度、協方差計算以及數據需要被壓縮到特定區間時使用廣泛,比如數字圖像處理中量化像素強度時,都會使用MinMaxScaler將數據壓縮於[0,1]區間之中。

  建議先試試看StandardScaler,效果不好再換MinMaxScaler。

  除了StandardScaler和MinMaxScaler之外,sklearn中也提供了各種其他縮放處理(中心化只需要一個pandas廣播一下減去某個數就好了,因此sklearn不提供任何中心化功能)。比如,在希望壓縮數據,卻不影響數據的稀疏性時(不影響矩陣中取值為0的個數時),我們會使用MaxAbsScaler;在異常值多,噪聲非常大時,我們可能會選用分位數來無量綱化,此時使用RobustScaler。更多詳情請參考以下列表。

 

2.2 缺失值

機器學習和數據挖掘中所使用的數據,永遠不可能是完美的。很多特征,對於分析和建模來說意義非凡,但對於實際收集數據的人卻不是如此,因此數據挖掘之中,常常會有重要的字段缺失值很多,但又不能舍棄字段的情況。因此,數據預處理中非常重要的一項就是處理缺失值。

import pandas as pd
data = pd.read_csv(r"C:\work\learnbetter\micro-class\
                    week 3 Preprocessing\Narrativedata.csv",index_col=0)
​
data.head()

 

在這里,我們使用從泰坦尼克號提取出來的數據,這個數據有三個特征,一個數值型,兩個字符型,標簽也是字符型。從這里開始,我們就使用這個數據給大家作為例子,讓大家慢慢熟悉sklearn中數據預處理的各種方式。

 

  • impute.SimpleImputer

class sklearn.impute.SimpleImputer(missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True)

在講解隨機森林的案例時,我們用這個類和隨機森林回歸填補了缺失值,對比了不同的缺失值填補方式對數據的影響。這個類是專門用來填補缺失值的。它包括四個重要參數:

參數 含義&輸入
missing_values 告訴SimpleImputer,數據中的缺失值長什么樣,默認空值np.nan
strategy 我們填補缺失值的策略,默認均值。 輸入“mean”使用均值填補(僅對數值型特征可用) 輸入“median"用中值填補(僅對數值型特征可用) 輸入"most_frequent”用眾數填補(對數值型和字符型特征都可用) 輸入“constant"表示請參考參數“fill_value"中的值(對數值型和字符型特征都可用)
fill_value 當參數startegy為”constant"的時候可用,可輸入字符串或數字表示要填充的值,常用0
copy 默認為True,將創建特征矩陣的副本,反之則會將缺失值填補到原本的特征矩陣中去。
data.info()
#填補年齡
​
Age = data.loc[:,"Age"].values.reshape(-1,1)            #sklearn當中特征矩陣必須是二維
Age[:20]
​
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer()                              #實例化,默認均值填補
imp_median = SimpleImputer(strategy="median")           #用中位數填補
imp_0 = SimpleImputer(strategy="constant",fill_value=0) #用0填補
​
imp_mean = imp_mean.fit_transform(Age)                  #fit_transform一步完成調取結果
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)
​
imp_mean[:20]
imp_median[:20]
imp_0[:20]
​
#在這里我們使用中位數填補Age
data.loc[:,"Age"] = imp_median
​
data.info()
​
#使用眾數填補Embarked
Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = "most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)
​
data.info()

 

 

BONUS:用Pandas和Numpy進行填補其實更加簡單

import pandas as pd
data = pd.read_csv(r"C:\work\learnbetter\micro-class\week 3 Preprocessing\Narrativedata.csv",index_col=0)
​
data.head()
​
data.loc[:,"Age"] = data.loc[:,"Age"].fillna(data.loc[:,"Age"].median())
#.fillna 在DataFrame里面直接進行填補
​
data.dropna(axis=0,inplace=True)
#.dropna(axis=0)刪除所有有缺失值的行,.dropna(axis=1)刪除所有有缺失值的列
#參數inplace,為True表示在原數據集上進行修改,為False表示生成一個復制對象,不修改原數據,默認False

 

2.3 處理分類型特征:編碼與啞變量

  在機器學習中,大多數算法,譬如邏輯回歸,支持向量機SVM,k近鄰算法等都只能夠處理數值型數據,不能處理文字,在sklearn當中,除了專用來處理文字的算法,其他算法在fit的時候全部要求輸入數組或矩陣,也不能夠導入文字型數據(其實手寫決策樹和普斯貝葉斯可以處理文字,但是sklearn中規定必須導入數值型)。然而在現實中,許多標簽和特征在數據收集完畢的時候,都不是以數字來表現的。比如說,學歷的取值可以是["小學",“初中”,“高中”,"大學"],付費方式可能包含["支付寶",“現金”,“微信”]等等。在這種情況下,為了讓數據適應算法和庫,我們必須將數據進行編碼,即是說,將文字型數據轉換為數值型

 

  • preprocessing.LabelEncoder:標簽專用,能夠將分類轉換為分類數值

from sklearn.preprocessing import LabelEncoder
​
y = data.iloc[:,-1]                         #要輸入的是標簽,不是特征矩陣,所以允許一維
​
le = LabelEncoder()                         #實例化
le = le.fit(y)                              #導入數據
label = le.transform(y)                     #transform接口調取結果
​
le.classes_                                 #屬性.classes_查看標簽中究竟有多少類別
label                                       #查看獲取的結果label
​
le.fit_transform(y)                         #也可以直接fit_transform一步到位
​
le.inverse_transform(label)                 #使用inverse_transform可以逆轉
​
data.iloc[:,-1] = label                     #讓標簽等於我們運行出來的結果
​
data.head()
​
#如果不需要教學展示的話我會這么寫:
from sklearn.preprocessing import LabelEncoder
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

 

 

  • preprocessing.OrdinalEncoder:特征專用,能夠將分類特征轉換為分類數值

from sklearn.preprocessing import OrdinalEncoder
​
#接口categories_對應LabelEncoder的接口classes_,一模一樣的功能
data_ = data.copy()
​
data_.head()
​
OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_
​
data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])
​
data_.head()

 

 

  • preprocessing.OneHotEncoder:獨熱編碼,創建啞變量

  我們剛才已經用OrdinalEncoder把分類變量Sex和Embarked都轉換成數字對應的類別了。在艙門Embarked這一列中,我們使用[0,1,2]代表了三個不同的艙門,然而這種轉換是正確的嗎?

我們來思考三種不同性質的分類數據:

1) 艙門(S,C,Q)

  三種取值S,C,Q是相互獨立的,彼此之間完全沒有聯系,表達的是S≠C≠Q的概念。這是名義變量。

2) 學歷(小學,初中,高中)

  三種取值不是完全獨立的,我們可以明顯看出,在性質上可以有高中>初中>小學這樣的聯系,學歷有高低,但是學歷取值之間卻不是可以計算的,我們不能說小學 + 某個取值 = 初中。這是有序變量。

3) 體重(>45kg,>90kg,>135kg)

  各個取值之間有聯系,且是可以互相計算的,比如120kg - 45kg = 90kg,分類之間可以通過數學計算互相轉換。這是有距變量。

  然而在對特征進行編碼的時候,這三種分類數據都會被我們轉換為[0,1,2],這三個數字在算法看來,是連續且可以計算的,這三個數字相互不等,有大小,並且有着可以相加相乘的聯系。所以算法會把艙門,學歷這樣的分類特征,都誤會成是體重這樣的分類特征。這是說,我們把分類轉換成數字的時候,忽略了數字中自帶的數學性質,所以給算法傳達了一些不准確的信息,而這會影響我們的建模。

  類別OrdinalEncoder可以用來處理有序變量,但對於名義變量,我們只有使用啞變量的方式來處理,才能夠盡量向算法傳達最准確的信息:

  這樣的變化,讓算法能夠徹底領悟,原來三個取值是沒有可計算性質的,是“有你就沒有我”的不等概念。在我們的數據中,性別和艙門,都是這樣的名義變量。因此我們需要使用獨熱編碼,將兩個特征都轉換為啞變量。

data.head()
​
from sklearn.preprocessing import OneHotEncoder
X = data.iloc[:,1:-1]
​
enc = OneHotEncoder(categories='auto').fit(X)
result = enc.transform(X).toarray()
result
​
#依然可以直接一步到位,但為了給大家展示模型屬性,所以還是寫成了三步
OneHotEncoder(categories='auto').fit_transform(X).toarray()
​
#依然可以還原
pd.DataFrame(enc.inverse_transform(result))
​
enc.get_feature_names()
​
result
result.shape
​
#axis=1,表示跨行進行合並,也就是將量表左右相連,如果是axis=0,就是將量表上下相連
newdata = pd.concat([data,pd.DataFrame(result)],axis=1)
​
newdata.head()
​
newdata.drop(["Sex","Embarked"],axis=1,inplace=True)
​
newdata.columns = ["Age","Survived","Female","Male","Embarked_C","Embarked_Q","Embarked_S"]
​
newdata.head()

 

  特征可以做啞變量,標簽也可以嗎?可以,使用類sklearn.preprocessing.LabelBinarizer可以對做啞變量,許多算法都可以處理多標簽問題(比如說決策樹),但是這樣的做法在現實中不常見,因此我們在這里就不贅述了。

 

2.4 處理連續型特征:二值化與分段

  • sklearn.preprocessing.Binarizer

  根據閾值將數據二值化(將特征值設置為0或1),用於處理連續型變量。大於閾值的值映射為1,而小於或等於閾值的值映射為0。默認閾值為0時,特征中所有的正值都映射到1。二值化是對文本計數數據的常見操作,分析人員可以決定僅考慮某種現象的存在與否。它還可以用作考慮布爾隨機變量的估計器的預處理步驟(例如,使用貝葉斯設置中的伯努利分布建模)。

#將年齡二值化

data_2 = data.copy()
​
from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1)               #類為特征專用,所以不能使用一維數組
transformer = Binarizer(threshold=30).fit_transform(X)
​
transformer
 
        
  • preprocessing.KBinsDiscretizer

  這是將連續型變量划分為分類變量的類,能夠將連續型變量排序后按順序分箱后編碼。總共包含三個重要參數:

參數 含義&輸入
n_bins 每個特征中分箱的個數,默認5,一次會被運用到所有導入的特征
encode 編碼的方式,默認“onehot” "onehot":做啞變量,之后返回一個稀疏矩陣,每一列是一個特征中的一個類別,含有該 類別的樣本表示為1,不含的表示為0 “ordinal”:每個特征的每個箱都被編碼為一個整數,返回每一列是一個特征,每個特征下含 有不同整數編碼的箱的矩陣 "onehot-dense":做啞變量,之后返回一個密集數組。
strategy 用來定義箱寬的方式,默認"quantile" "uniform":表示等寬分箱,即每個特征中的每個箱的最大值之間的差為 (特征.max() - 特征.min())/(n_bins) "quantile":表示等位分箱,即每個特征中的每個箱內的樣本數量都相同 "kmeans":表示按聚類分箱,每個箱中的值到最近的一維k均值聚類的簇心得距離都相同
from sklearn.preprocessing import KBinsDiscretizer
​
X = data.iloc[:,0].values.reshape(-1,1) 
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit_transform(X)

#查看轉換后分的箱:變成了一列中的三箱
set(est.fit_transform(X).ravel())
​
est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
#查看轉換后分的箱:變成了啞變量
est.fit_transform(X).toarray()

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM