【Python數據挖掘】第六篇--特征工程


一、Standardization

方法一:StandardScaler

from sklearn.preprocessing import StandardScaler
sds = StandardScaler()
sds.fit(x_train)

x_train_sds = sds.transform(x_train)
x_test_sds = sds.transform(x_test)

方法二:MinMaxScaler  特征縮放至特定范圍 , default=(0, 1)

from sklearn.preprocessing import MinMaxScaler
mns = MinMaxScaler((0,1))
mns.fit(x_train)

x_train_mns = mns.transform(x_train)
x_test_mns = mns.transform(x_test) 

二、Normalization 使單個樣本具有單位范數的縮放操作。 經常在文本分類和聚類當中使用。

from sklearn.preprocessing import Normalizer
normalizer = Normalizer()
normalizer.fit(x_train)

x_train_nor = normalizer.transform(x_train)
x_test_nor = normalizer.transform(x_test)

三、Binarization 特征二值化是將數值型特征變成布爾型特征。

from sklearn.preprocessing import Binarizer
bi = Binarizer(threshold=0.0)           # 設置閾值默認0.0  大於閾值設置為1 , 小於閾值設置為0

XX = bi.fit_transform(x_train["xx"])    # shape (1行,X列)
x_train["XX"] = XX.T 
# x_train["XX"] = XX[0,:]

四、連續性變量划分份數

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
x:array-like   # 要分箱的數組
bin:int        # 在x范圍內的等寬單元的數量。

pd.cut(df["XXX"],5)

進行分箱操作后得到得值是字符串,還需要進行Encoding categorical features

五、one-hot Encoding / Encoding categorical features

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)

dummy_na=False # 是否把 missing value單獨存放一列

pd.get_dummies(df , columns = ['xx' , 'xx' , ... ])

六、Imputation of missing values 缺失值處理

①、將無限大,無限小,Missing Value (NaN)替換成其他值;

②、sklearn 不接收包含NaN的值;

class sklearn.preprocessing.Imputer(missing_values='NaN', strategy='mean', axis=0, verbose=0, copy=True)

strategy :  (default=”mean”)   # median , most_frequent
axis :      (default=”0”)      # 表示用列上所有值進行計算

from sklearn.preprocessing import Imputer
im =Imputer()
im.fit_transform(df['xxx'])

③、使用無意義的值來填充,如-999。

df.replace( np.inf , np.nan )
# 先用NaN值替換,再用-999填充NaN值。
df.fillna(-999)
df.fillna(-1)    # 注意: -1與標准化的數值可能有意義關系

七、Feature selection 特征選擇 

①:基於 L1-based feature selection

from sklearn.linear_model import Lasso
lasso = Lasso()
lasso.fit(xdata,ydata)

lasso.coef_                       # 查看特征系數
array([ 1.85720489,  0.        , -0.03700954,  0.09217834, -0.01157946,
       -0.53603543,  0.72312094, -0.231194  ,  1.26363755, -0.        ,
        0.        , -0.        ,  0.        ,  0.        ,  0.        ,
       -0.        , -0.        , -0.        ,  0.        , -0.        ,
        0.        ,  5.21977984, -0.        , -0.        ,  7.00192208,
       -0.        ,  0.        ,  0.        , -0.        ])

可以發現,經過One-hot Encod的變量都變成0 , 需要手工進一步篩選 , 不能去掉One-hot的變量 !

利用模型進行篩選的方法:

class sklearn.feature_selection.SelectFromModel(estimator, threshold=None, prefit=False)

from sklearn.feature_selection import SelectFromModel
model = SelectFromModel(lasso,prefit=True)
x_new = model.transform(xdata)

②:基於 Tree-based feature selection

采用 Random Forests

from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(xdata,ydata)

rf.feature_importances_ 
array([  8.76227379e-02,   4.41726855e-02,   2.12394498e-02,
         1.98631826e-01,   1.75612945e-02,   6.72095736e-02,
         4.25518536e-01,   3.50132246e-02,   7.23241098e-02, ... ]

非線性模型, 沒有系數, 只有變量重要性!!!!

變量重要性大,放前面, 小的刪除或者放后面

③:基於Removing features with low variance  移除所有方差不滿足閾值的特征

class sklearn.feature_selection.VarianceThreshold(threshold=0.0)

from sklearn.feature_selection import VarianceThreshold
v = VarianceThreshold(1)
v.fit_transform(xdata)

④:基於Univariate feature selection  單變量特征選擇

1、SelectKBest 移除得分前 k 名以外的所有特征

class sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, k=10)

score_func : 統計指標函數
K : 個數 

模型衡量指標:

導入相應的函數即可!

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
skb = SelectKBest(f_regression,k=10)
skb.fit_transform(xdata,ydata)
xdata.shape

2、移除得分在用戶指定百分比以后的特征

class sklearn.feature_selection.SelectPercentile(score_func=<function f_classif>, percentile=10)

score_func:采用統計指標函數
percentile:百分數

推薦使用 Feature importtance , Tree-base > L1-base > ... //

八、Dimensionality reduction  減少要考慮的隨機變量的數量

方法一:PCA ,主成分分析 , 計算協方差矩陣

sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)
# n_components : 設置留下來幾列

from sklearn.decomposition import PCA
pca = PCA(15)
newdata = pca.fit_transform(xdata)
newdata.shape

univariate feature selection 與 PCA 區別:

1/ 計算每一個feature 統計量 , 然后選擇前幾個

2/ PCA 是考慮整個數據集 , 列與列存在關系 , 計算整個矩陣方差共線,

pca.explained_variance_            # 可解釋的方差
pca.explained_variance_ratio_      # 百分比

注意:PCA 前先將數據進行標准化!!!

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
pca.fit_transform(ss.fit_transform(xdata))

方法二:TruncatedSVD 

TruncatedSVD 原來N列 可以選擇指定保留k列 , 降維

SVD  產生N*N矩陣 , 沒有降維

sklearn.decomposition.TruncatedSVD(n_components=2, algorithm='randomized', n_iter=5, random_state=None, tol=0.0)

n_components:int  , 輸出數據的期望維度。

九、思維導圖

十、fit、fit_transform和transform的區別 

  我們使用sklearn進行文本特征提取/預處理數據。可以看到除訓練,預測和評估以外,處理其他工作的類都實現了3個方法:fit、transform和fit_transform。

  從命名中可以看到,fit_transform方法是先調用fit然后調用transform,我們只需要關注fit方法和transform方法即可。

  transform方法主要用來對特征進行轉換。從可利用信息的角度來說,轉換分為無信息轉換有信息轉換

  • 無信息轉換是指不利用任何其他信息進行轉換,比如指數、對數函數轉換等。

  • 有信息轉換從是否利用目標值向量又可分為無監督轉換有監督轉換

    • 無監督轉換指只利用特征的統計信息的轉換,統計信息包括均值、標准差、邊界等等,比如標准化、PCA法降維等。

    • 有監督轉換指既利用了特征信息又利用了目標值信息的轉換,比如通過模型選擇特征、LDA法降維等。

  通過總結常用的轉換類,我們得到下表:

  fit方法主要對整列,整個feature進行操作,但是對於處理樣本獨立的操作類,fit操作沒有實質作用!

 

十一、特征工程選擇

  • 時間

  • 空間

  • 比率值

  • 變化率

 

 

 

 

變化率例子:  10月 :  (20% - 10%) / 10% = 100%

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM