特征選擇


一、特征選擇基本問題

我們將屬性稱為“特征”(feature),對當前學習任務有用的屬性稱為“相關特征”(relevant feature)、沒什么用的屬性稱為“無關特征”(irrelevant feature)。

從給定的特征集合中選擇出相關特征子集的過程,稱為“特征選擇”(feature select)。

1-1、為什么要進行特征選擇

第一,為了處理維數災難(減輕維數災難的另一種方法是降維);

第二,去除不相關特征往往會降低學習任務的難度。

對於同樣的數據集,若學習任務不同,則相關特征很有可能不同,因此,特征選擇中所謂的“無關特征”是指與當前學習任務無關。

 

冗余特征(redundant feature):該類特征所包含的信息能從其他特征中推演出來。例如,考慮立方體對象,若已有特征“底面長”、“底面寬”,則“底面積”是冗余特征。

冗余特征在很多時候不起作用,去除它們會減輕學習過程的負擔。但有時冗余特征會降低學習任務難度,例如學習目標是估算立方體的體積,則“底面積”這個冗余特征的存在

使得體積的估算更容易;更確切地說,若某個冗余特征恰好對應了完成學習任務所需的“中間概念”,則該冗余特征是有益的。

1-2、子集搜索與評價

子集搜索(subset search):給定特征集合{a1,a2,...,ad}。

前向搜索:將每個特征看做一個候選子集,對這d個候選單特征自己進行評價。

從單特征子集開始逐漸增加特征,每次增加一個特征,使得每次增加特征后的子集優於之前的子集,直到最優的候選子集不如前一輪的子集時,停止增加子集。

后向搜索:從完整的特征集開始,每次嘗試去掉一個無關特征。

 

子集評價(subset evaluation):

判斷兩個不同子集哪個較優可以通過信息增益(兩次信息熵的差值)來判斷。信息增益越大,意味着特征子集包含的有助於分類的信息越多。

 

將前向搜索與信息熵的子集評價結合,即與決策樹算法十分相似。

事實上,決策樹(基於樹的分類器)可以用於特征選擇,樹結點的划分屬性所組成的集合就是選擇出的特征子集。

二、特征選擇的主要方法

2-1、過濾式(Filter)

過濾式方法先對數據集進行特征選擇,然后再訓練學習器,特征選擇過程與后續學習器無關。

其主要思想是為每一個特征計算一個權重,這樣的權重就代表着該維特征的重要性,然后依據權重排序。

主要的方法有:Relief(Relevant Features)。

2-2、包裹式(Wrapper)

與過濾式特征選擇不考慮后續學習器不同,包裹式特征選擇直接把最終將要使用的學習器的性能作為特征子集的評價准則。

從最終學習器性能來看,包裹式特征選擇比過濾式特征選擇更好,但是計算開銷也大的多。

 其主要思想是將子集的選擇看作是一個搜索尋優問題,生成不同的組合,對組合進行評價,再與其他的組合進行比較。

這樣就將子集的選擇看作一個優化問題,這里有很多的優化算法可以解決,尤其是一些啟發式的優化算法。

主要方法有:LVW(Las Vegas Wrapper)。

2-3、嵌入式(Embedding)

在過濾式和包裹式特征選擇方法中,特征選擇過程與學習器訓練過程有明顯區別;

而嵌入式特征選擇是將特征選擇過程與學習器訓練過程融為一體,兩者在同一個優化過程中完成,即在學習器訓練過程中自動地進行了特征選擇。

其主要思想是:在模型既定的情況下學習出對提高模型准確性最好的屬性。即在確定模型的過程中,挑選出那些對模型的訓練有重要意義的屬性。

主要方法有:嶺回歸(ridge regression),嶺回歸就是在基本線性回歸的過程中加入了L2正則項。

 

將L2正則項換成L1正則項時,稱為LASSO。

 

L1范數(模)和L2范數(模)正則化都有助於降低過擬合風險,但前者還會帶來“稀疏解”,即它求得的w會有更少的非零分量。

直觀的例子如下:假定數據集僅有兩個屬性,因此求解得到的w也只有兩個分量,即w1,w2,我們將其作為兩個坐標軸,然后繪制上面兩個式子的“等值線”,

即在(w1,w2)空間中平方誤差項取值相同的點的連線,再分別繪制L1范數和L2范數的等值線。

從圖可知,使用L1范數時平方誤差項等值線與正則化等值線的交點常出現在坐標軸上,即w1或w2為0;而采用L2范數時,兩者的交點常出現在某個象限中,即w1和w2均非0.

因此,L1范數比L2范數更易於得到系數解。

參考文獻

 [1]. 周志華. 機器學習[M]. Qing hua da xue chu ban she, 2016.

 [2]. 機器學習之特征選擇

 [3].幾種常用的特征選擇方法


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM