3(2).特征選擇---包裝法

本文轉載自查看原文 2019-07-01 18:45 419 特征工程

1. 前向搜索

　　每次增量地從剩余未選中的特征選出一個加入特征集中，待達到閾值或者時，從所有的中選出錯誤率最小的。過程如下：

初始化特征集為空。
掃描從到
如果第個特征不在中，那么特征和放在一起作為 (即 )。
在只使用中特征的情況下，利用交叉驗證來得到的錯誤率。
從上步中得到的個中選出錯誤率最小的 ,更新為。
如果中的特征數達到了或者預定的閾值（如果有的話），
那么輸出整個搜索過程中最好的；若沒達到，則轉到 2，繼續掃描。

2. 后向搜索

　　既然有增量加，那么也會有增量減，后者稱為后向搜索。先將設置為，然后每次刪除一個特征，並評價，直到達到閾值或者為空，然后選擇最佳的。

　　這兩種算法都可以工作，但是計算復雜度比較大。時間復雜度為

3. 遞歸特征消除法

　　遞歸消除特征法使用一個基模型來進行多輪訓練，每輪訓練后，消除若干權值系數的特征，再基於新的特征集進行下一輪訓練。使用feature_selection庫的RFE類來選擇特征的代碼如下：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

#遞歸特征消除法，返回特征選擇后的數據
#參數estimator為基模型
#參數n_features_to_select為選擇的特征個數
RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)

舉例：使用一個基模型來進行多輪訓練，經過多輪訓練后，保留指定的特征數。

#首先導入數據到data變量中
import pandas
data=pandas.read_csv('路徑.csv')

#接着，我們使用RFE類，在estimator中，
#把我們的基模型設置為線性回歸模型LinearRegression,
#然后在把我們要選擇的特征數設置為2，
#接着就可以使用這個rfe對象，把自變量和因變量傳入fit_transform方法，
#即可得到我們需要的特征值
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

feature =data[['月份','季度','廣告推廣費','注冊並投資人數']]

rfe =RFE(
    estimator=LinearRegression(),
    n_features_to_select=2
)
sFeature = rfe.fit_transform(
    feature,
    data['銷售金額']
)

#同理，我們要想知道這兩個自變量的名字，
#使用get_support方法，即可得到對應的列名
rfe.get_support()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【特征選擇】包裹式特征選擇法【特征選擇】過濾式特征選擇法特征選擇法之方差選擇 3(3).特征選擇---嵌入法（特征重要性評估）【特征選擇】嵌入式特征選擇法特征選擇-嵌入 sklearn——特征選擇文本特征選擇特征選擇-Filter過濾法（方差）特征選擇---SelectKBest