特征選擇方法初識:
1、為什么要做特征選擇
在有限的樣本數目下,用大量的特征來設計分類器計算開銷太大而且分類性能差。
2、特征選擇的確切含義
將高維空間的樣本通過映射或者是變換的方式轉換到低維空間,達到降維的目的,然后通過特征選取刪選掉冗余和不相關的特征來進一步降維。
3、特征選取的原則
獲取盡可能小的特征子集,不顯著降低分類精度、不影響類分布以及特征子集應具有穩定適應性強等特點
主要有三種方法:
1、Filter方法
其主要思想是:對每一維的特征“打分”,即給每一維的特征賦予權重,這樣的權重就代表着該維特征的重要性,然后依據權重排序。
主要的方法有:
- Chi-squared test(卡方檢驗)
- information gain(信息增益),詳細可見“簡單易學的機器學習算法——決策樹之ID3算法”
- correlation coefficient scores(相關系數)
2、Wrapper方法
其主要思想是:將子集的選擇看作是一個搜索尋優問題,生成不同的組合,對組合進行評價,再與其他的組合進行比較。這樣就將子集的選擇看作是一個是一個優化問題,這里有很多的優化算法可以解決,尤其是一些啟發式的優化算法,如GA,PSO,DE,ABC等,詳見“優化算法——人工蜂群算法(ABC)”,“優化算法——粒子群算法(PSO)”。
主要方法有: (遞歸特征消除算法)
3、Embedded方法
其主要思想是:在模型既定的情況下學習出對提高模型准確性最好的屬性。這句話並不是很好理解,其實是講在確定模型的過程中,挑選出那些對模型的訓練有重要意義的屬性。
簡單易學的機器學習算法——嶺回歸(Ridge Regression)”,嶺回歸就是在基本線性回歸的過程中加入了正則項。
4、總結以及注意點
這篇文章中最后提到了一點就是用特征選擇的一點Trap。個人的理解是這樣的,特征選擇不同於特征提取,特征和模型是分不開,選擇不同的特征訓練出的模型是不同的。在機器學習=模型+策略+算法的框架下,特征選擇就是模型選擇的一部分,是分不開的。這樣文章最后提到的特征選擇和交叉驗證就好理解了,是先進行分組還是先進行特征選擇。
答案是當然是先進行分組,因為交叉驗證的目的是做模型選擇,既然特征選擇是模型選擇的一部分,那么理所應當是先進行分組。如果先進行特征選擇,即在整個數據集中挑選擇機,這樣挑選的子集就具有隨機性。
我們可以拿正則化來舉例,正則化是對權重約束,這樣的約束參數是在模型訓練的過程中確定的,而不是事先定好然后再進行交叉驗證的。
特征選擇方法具體分細節總結:
1 去掉取值變化小的特征 Removing features with low variance
該方法一般用在特征選擇前作為一個預處理的工作,即先去掉取值變化小的特征,然后再使用其他的特征選擇方法選擇特征。
2 單變量特征選擇 Univariate feature selection
單變量特征選擇能夠對每一個特征進行測試,衡量該特征和響應變量之間的關系,根據得分扔掉不好的特征。對於回歸和分類問題可以采用卡方檢驗等方式對特征進行測試。
2.1 Pearson相關系數 Pearson Correlation
皮爾森相關系數是一種最簡單的,能幫助理解特征和響應變量之間關系的方法,該方法衡量的是變量之間的線性相關性,結果的取值區間為[-1,1],-1表示完全的負相關(這個變量下降,那個就會上升),+1表示完全的正相關,0表示沒有線性相關。
2.2 互信息和最大信息系數 Mutual information and maximal information coefficient (MIC)
以上就是經典的互信息公式了。想把互信息直接用於特征選擇其實不是太方便:1、它不屬於度量方式,也沒有辦法歸一化,在不同數據集上的結果無法做比較;2、對於連續變量的計算不是很方便(X和Y都是集合,x,y都是離散的取值),通常變量需要先離散化,而互信息的結果對離散化的方式很敏感。
2.3 距離相關系數 (Distance correlation)
距離相關系數是為了克服Pearson相關系數的弱點而生的。Pearson相關系數是0,我們也不能斷定這兩個變量是獨立的(有可能是非線性相關);但如果距離相關系數是0,那么我們就可以說這兩個變量是獨立的。
2.4 基於學習模型的特征排序 (Model based ranking)
這種方法的思路是直接使用你要用的機器學習算法,針對每個單獨的特征和響應變量建立預測模型。其實Pearson相關系數等價於線性回歸里的標准化回歸系數。假如某個特征和響應變量之間的關系是非線性的,可以用基於樹的方法(決策樹、隨機森林)、或者擴展的線性模型等。基於樹的方法比較易於使用,因為他們對非線性關系的建模比較好,並且不需要太多的調試。但要注意過擬合問題,因此樹的深度最好不要太大,再就是運用交叉驗證。
3 線性模型和正則化
單變量特征選擇方法獨立的衡量每個特征與響應變量之間的關系,另一種主流的特征選擇方法是基於機器學習模型的方法。有些機器學習方法本身就具有對特征進行打分的機制,或者很容易將其運用到特征選擇任務中,例如回歸模型,SVM,決策樹,隨機森林等等。
3.1 正則化模型
正則化就是把額外的約束或者懲罰項加到已有模型(損失函數)上,以防止過擬合並提高泛化能力。損失函數由原來的E(X,Y)變為E(X,Y)+alpha||w||,w是模型系數組成的向量(有些地方也叫參數parameter,coefficients),||·||一般是L1或者L2范數,alpha是一個可調的參數,控制着正則化的強度。當用在線性模型上時,L1正則化和L2正則化也稱為Lasso和Ridge。
3.2 L1正則化/Lasso
L1正則化將系數w的l1范數作為懲罰項加到損失函數上,由於正則項非零,這就迫使那些弱的特征所對應的系數變成0。因此L1正則化往往會使學到的模型很稀疏(系數w經常為0),這個特性使得L1正則化成為一種很好的特征選擇方法。
3.3 L2正則化/Ridge regression
L2正則化將系數向量的L2范數添加到了損失函數中。由於L2懲罰項中系數是二次方的,這使得L2和L1有着諸多差異,最明顯的一點就是,L2正則化會讓系數的取值變得平均。對於關聯特征,這意味着他們能夠獲得更相近的對應系數。還是以Y=X1+X2為例,假設X1和X2具有很強的關聯,如果用L1正則化,不論學到的模型是Y=X1+X2還是Y=2X1,懲罰都是一樣的,都是2alpha。但是對於L2來說,第一個模型的懲罰項是2alpha,但第二個模型的是4*alpha。可以看出,系數之和為常數時,各系數相等時懲罰是最小的,所以才有了L2會讓各個系數趨於相同的特點。
可以看出,L2正則化對於特征選擇來說一種穩定的模型,不像L1正則化那樣,系數會因為細微的數據變化而波動。所以L2正則化和L1正則化提供的價值是不同的,L2正則化對於特征理解來說更加有用:表示能力強的特征對應的系數是非零
4 隨機森林
隨機森林具有准確率高、魯棒性好、易於使用等優點,這使得它成為了目前最流行的機器學習算法之一。隨機森林提供了兩種特征選擇的方法:mean decrease impurity和mean decrease accuracy。
4.1 平均不純度減少 mean decrease impurity
隨機森林由多個決策樹構成。決策樹中的每一個節點都是關於某個特征的條件,為的是將數據集按照不同的響應變量一分為二。利用不純度可以確定節點(最優條件),對於分類問題,通常采用基尼不純度或者信息增益,對於回歸問題,通常采用的是方差或者最小二乘擬合。當訓練決策樹的時候,可以計算出每個特征減少了多少樹的不純度。對於一個決策樹森林來說,可以算出每個特征平均減少了多少不純度,並把它平均減少的不純度作為特征選擇的值。
4.2 平均精確率減少 Mean decrease accuracy
另一種常用的特征選擇方法就是直接度量每個特征對模型精確率的影響。主要思路是打亂每個特征的特征值順序,並且度量順序變動對模型的精確率的影響。很明顯,對於不重要的變量來說,打亂順序對模型的精確率影響不會太大,但是對於重要的變量來說,打亂順序就會降低模型的精確率。
5 兩種頂層特征選擇算法
之所以叫做頂層,是因為他們都是建立在基於模型的特征選擇方法基礎之上的,例如回歸和SVM,在不同的子集上建立模型,然后匯總最終確定特征得分。
5.1 穩定性選擇 Stability selection
穩定性選擇是一種基於二次抽樣和選擇算法相結合較新的方法,選擇算法可以是回歸、SVM或其他類似的方法。它的主要思想是在不同的數據子集和特征子集上運行特征選擇算法,不斷的重復,最終匯總特征選擇結果,比如可以統計某個特征被認為是重要特征的頻率(被選為重要特征的次數除以它所在的子集被測試的次數)。理想情況下,重要特征的得分會接近100%。稍微弱一點的特征得分會是非0的數,而最無用的特征得分將會接近於0。
5.2 遞歸特征消除 Recursive feature elimination (RFE)
遞歸特征消除的主要思想是反復的構建模型(如SVM或者回歸模型)然后選出最好的(或者最差的)的特征(可以根據系數來選),把選出來的特征放到一邊,然后在剩余的特征上重復這個過程,直到所有特征都遍歷了。這個過程中特征被消除的次序就是特征的排序。因此,這是一種尋找最優特征子集的貪心算法。
RFE的穩定性很大程度上取決於在迭代的時候底層用哪種模型。例如,假如RFE采用的普通的回歸,沒有經過正則化的回歸是不穩定的,那么RFE就是不穩定的;假如采用的是Ridge,而用Ridge正則化的回歸是穩定的,那么RFE就是穩定的。
6 啟發式搜索
序列前向選擇(SFS,Sequential Forward Seelction):特征子集X從空集開始,每次選擇一個特征x加入特征子集X,使得特征函數J(X)最優。簡單說就是,每次都選擇一個使得評價函數的取值達到最優的特征加入,其實就是一種簡單的貪心算法。缺點就是只能加入特征而不能去除特征。例如:特征A完全依賴於特征B與C,可以認為如果加入了特征B與C則A就是多余的。假設序列前向選擇算法首先將A加入特征集,然后又將B與C加入,那么特征子集中就包含了多余的特征A。
序列后向選擇(SBS,Sequential Backward Selection):從特征全集O開始,每次從特征集O中剔除一個特征x,使得剔除特征x后評價函數值達到最優。和SFS相反,從特征全集開始,每次選擇使評價函數J(X)最優的特征x剔除,也是貪心算法,缺點是只減不增。
雙向搜索(BDS,Bidirectional Search):使用SFS從空集開始,同時使用SBS從全集開始搜索,當兩者搜索到一個相同的特征子集C時停止搜索。雙向搜索的出發點是。如下圖所示,O點代表搜索起點,A點代表搜索目標。灰色的圓代表單向搜索可能的搜索范圍,綠色的2個圓表示某次雙向搜索的搜索范圍,容易證明綠色的面積必定比灰色的要小。
增L去R選擇算法(LRS,Plus-L Minus-R Selection):該算法有兩種形式,此算法結合了SBS和SFS思想,L和R的選擇是關鍵。
算法從空集開始,每輪先加入L個特征,然后從中去除R個特征,使得評價函數值最優。(L>R)
算法從全集開始,每輪先去除R個特征,然后加入L個特征,使得評價函數最優。(L<R)
浮動序列選擇(Sequential Floating Selection):序列浮動選擇由LRS發展而來,該算法與LRS算法不同之處在:序列浮動選擇的L與R不是固定的,而是“浮動”的,也就是會變化的。此算法結合了SBS, SFS, LRS的特點,並彌補了它們的缺點。根據搜索方向的不同,有以下兩種變種:
序列浮動前向選擇(SFFS, Sequential Floating Forward Selection):從空集開始,每輪在未選擇的特征中選擇一個子集x,使加入子集x后評價函數達到最優,然后在已選擇的特征中選擇子集z,使剔除子集z后評價函數達到最優。
序列浮動后向選擇(SBBS, Sequential Floating Backward Selection):從全集開始,每輪在已選擇的特征中剔除一個子集z,使剔除子集z后評價函數達到最優,然后在未選擇的特征中選擇子集x,使加入子集x后評價函數達到最優。
6、特征獲取方法的選取原則
a、處理的數據類型
b、處理的問題規模
c、問題需要分類的數量
d、對噪聲的容忍能力
e、無噪聲環境下,產生穩定性好、最優特征子集的能力。
互信息Mutual Informantion
yj對xi的互信息定義為后驗概率與先驗概率比值的對數。
互信息越大,表明yj對於確定xi的取值的貢獻度越大。
實際上,互信息衡量的是xi與y的獨立性,如果他倆獨立,則互信息發值為零,則xi與y不相關,則可以剔除xi,反之,如果互信息發值越大則他們的相關性越大
基於期望交叉熵的特征項選擇
p(ci|w)表示在出現詞條w時文檔屬於類別ci的概率。
交叉熵反應了文本類別的概率分布與在出現了某個詞條的情況下文本類別的概率分布之間的距離。詞條的交叉熵越大,對文本類別分布影響也就越大。
如果使用具有對稱性的交叉熵,那公式就變成了
特征選擇->前向搜索,后向搜索
1 初始化特征集F為空
2 掃描i從1到n,
如果第i個特征不再F中,那么將特征i和F放到一起Fi在只使用Fi中特征的情況下,利用交叉驗證來得到Fi的錯誤率。
3 從上步中得到的n個Fi中選擇出錯誤率最小的Fi,更新F為Fi
如果F中的特征數達到n或者預設定的閾值(如果有),那么輸出整個搜索過程中最好的F,沒達到轉到2
這里指不斷地使用不同的特征集來測試學習算法,即每次增量地從剩余未選中的特征選出一個加入特征集中,待達到閾值或者n時,從所有的F中選出錯誤率最小的。
開始,然后每次循環刪除一個特征直到
然后選擇最佳的F。
向前和向后搜索的時間復雜度都比較高,時間復雜度為O(n2)
特征選擇算法實現:http://blog.csdn.net/fighting_one_piece/article/details/37912051
更多詳細信息參見: http://www.tuicool.com/articles/ieUvaq
參考自:http://blog.csdn.net/google19890102/article/details/40019271
https://www.cnblogs.com/nolonely/p/6435083.html