特征選擇


概述

針對某種數據,通過一定的特征提取手段,或者記錄觀測到的特征,往往得到的是一組特征,但其中可能存在很多特征與當前要解決的問題並不密切等問題。另一方面,由於特征過多,在處理中會帶來計算量大、泛化能力差等問題,即所謂的“維數災難”。

特征選擇便是從給定的特征集合中選出相關特征子集的過程。特征選擇也可以有效地解決維數災難的難題。具體而言:降維從一定程度起到了提煉優質低維屬性和降噪的效果,特征選擇則是直接剔除那些與學習任務無關的屬性而選擇出最佳特征子集。因此為特征維度進行約減是有必要的,我們希望在保證分類等任務效果的同時,使用盡可能少的特征完成分類。

以下從兩個環節:子集搜索、特征/特征子集評價,三種分類:過濾式、包裹式和嵌入式,進行展開。

 

特征子集搜索

1、單獨衡量特征

2、考慮已選擇特征的方法

3、順序后向選擇

4、順序前向選擇

 

5、增l減r選擇法

6、浮動搜索技術

 

7、分枝定界算法

 

特征/特征子集評價

1、基於距離的評價

各類樣本可以分開是因為它們位於特征空間的不同區域,顯然這些區域之間距離越大,類別可分性就越大。現在我們考慮更為簡單的准則上,這些准則考慮在一維空間中特征向量樣本分布之間的關系。定義下列矩陣:

基於類內類間距離的可分離性判據是一種常用的判據,它實際上是各類向量之間的平均距離。具體而言,即 J(x) 表示各類特征向量之間的平均距離,我們通常認為 J(x) 越大,可分離性越好。這種判據優點是計算簡單;缺點是當類間距離較小,類內距離較大時,判據仍有可能取得較大的值,而此時的可分離性並不大。

2、基於概率分布的評價准則

上面介紹的距離准則是直接從各類樣本間的距離出發的,沒有考慮各類的概率分布,不能確切表明各類交疊的情況,因此與錯誤概率沒有直接聯系,下面介紹一些基於概率分布的可分性判據

3、基於熵的可分性判據

在信息論中,熵(Entropy)表示不確定性,熵越大不確定性越大,對隨機變量來說也就是其包含的信息量越大。可以借用熵的概念來描述各類的可分性。如果將熵的概念應用在特征選擇中,便能夠幫助人們尋找到含有最多信息的特征,並成為一種好的全局測度。

假設數據集的屬性皆為離散屬性,這樣給定一個特征子集,便可以通過這個特征子集的取值將數據集合划分為V個子集。例如:A1={男,女},A2={本科,碩士}就可以將原數據集划分為2*2=4個子集,其中每個子集的取值完全相同。這時我們就可以像決策樹選擇划分屬性那樣,通過計算信息增益來評價該屬性子集的好壞。

一般的

4、基於最小冗余最大相關性的評價准則

實際應用中,單獨的某幾個特征對學習器的性能可能有很好的表現,但由於特征之間存在冗余,將這些特征組合在一起反而難以達到預期的效果。因此,在對特征進行評價時,除了考慮到選擇到的特征對學習器性能的影響還應考慮到特征之間的冗余。這就是最小冗余最大相關性(MRMR)的由來。

5、基於分類正確率的評價准則

前面介紹的幾種特征評價准則都使用分類器正確率之外的指標,這類不使用學習器性能作為評價准則的方法對應於特征選擇中的過濾式方法。相對地,直接使用學習器性能作為評價准則,並在此基礎上進行特性子集搜索后送入學習器訓練的方法稱為包裹式特征選擇方法。

 

特征選擇分類

特征選擇算法根據其工作原理,主要分為過濾式(Filter)、包裹式(Wrapper)、嵌入式(Embedded)三大類。

1、過濾式

基於過濾的方法采用獨立於分類器的評價准則函數作為指標來搜索最佳波段子集。先對數據集進行特征選擇,然后再訓練學習器以檢驗實際效果。也就是說特征選擇的過程獨立於后續的學習器訓練過程。其優點是執行效率較高,但精度可能受限。

2、包裹式

包裹式的方法直接以學習器的精度作為衡量特征子集好壞的標准。因為選擇到的特征是為學習器量身定做的,所以其得到的特征代表性強,最有利於該學習器。但其每進行一次特征子集搜索就要重新訓練一遍學習器,需要巨大的計算代價。

3、嵌入式

前面提到了的兩種特征選擇方法:過濾式中特征選擇與后續學習器完全分離,包裹式則是使用學習器作為特征選擇的評價准則;嵌入式是一種將特征選擇與學習器訓練完全融合的特征選擇方法,即將特征選擇融入學習器的優化過程中。

經驗風險指的是模型與訓練數據的契合度,結構風險則是模型的復雜程度,機器學習的核心任務就是:在模型簡單的基礎上保證模型的契合度。例如:嶺回歸就是加上了L2范數的最小二乘法,有效地解決了奇異矩陣、過擬合等諸多問題,下面的嵌入式特征選擇則是在損失函數后加上了L1范數。

L1范數美名又約Lasso Regularization,指的是向量中每個元素的絕對值之和,這樣在優化目標函數的過程中,就會使得w盡可能地小,在一定程度上起到了防止過擬合的作用,同時與L2范數(Ridge Regularization )不同的是,L1范數會使得部分w變為0, 從而達到了特征選擇的效果。

總的來說:L1范數會趨向產生少量的特征,其他特征的權值都是0;L2會選擇更多的特征,這些特征的權值都會接近於0。這樣L1范數在特征選擇上就十分有用,而L2范數則具備較強的控制過擬合能力。可以從下面兩個方面來理解:

(1)下降速度:L1范數按照絕對值函數來下降,L2范數按照二次函數來下降。因此在0附近,L1范數的下降速度大於L2范數,故L1范數能很快地下降到0,而L2范數在0附近的下降速度非常慢,因此較大可能收斂在0的附近。

(2)空間限制:L1范數與L2范數都試圖在最小化損失函數的同時,讓權值W也盡可能地小。我們可以將原優化問題看做為下面的問題,即讓后面的規則則都小於某個閾值。這樣從圖中可以看出:L1范數相比L2范數更容易得到稀疏解。

這里寫圖片描述


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM