2 過濾式選擇
過濾式選擇和后續學習器無關,首先用特征選擇過程對初始特征進行過濾,然后用過濾后的特征來訓練模型。
Relief:用一個“相關統計量”的向量來度量特征的重要性,每個分量對應一個特征。 對特征子集的重要性評估為相關統計分量之和。
2.1 “相關統計量”的確定
在給定訓練集{(x1,y1),(x2,y2),....,(xm,ym)},對於每個xi,找到其同類最鄰近xi,nh(猜中近鄰near-hit),再從xi的異類樣本中尋找最近鄰xi,nm(猜錯近鄰near-miss)。故此相關統計量對於屬性j而言的分量是
對於離散值而言,diff不同條件成立取1,相同取0。若為連續值,則規范化到【0,1】區間,然后進行做差。(和距離度量學習有些類似)
上面這一式子的解釋為,猜中近鄰距離小於猜錯近鄰,則說明該屬性的分類效果好,增大對應的統計分量,故此為正數。
2.2 數據集
對於“相關統計量”而言,只需要在數據集上采樣而不必在整個數據集上進行估計,
上述的Relief只能針對二分類問題。對於多分類問題而言提出了Relief—F,首先在本類中找到最近猜中近鄰,然后在其他各類中都找猜錯近鄰。用概率(pl各類樣本占整個數據集D的比例)進行累加,具體公式如下
2.3 最終選擇
可以根據“相關統計量”,可以選擇k個時就依次從高到低選擇相應的個數,或者是可以選擇“相關統計量”大於某一閾值的特征。
11.3 包裹式選擇
包裹式特征選擇直接把最終將要使用的學習器性能作為特征子集的評價標准,換而言之選擇出了最有利於學習器性能發揮量身定做的特征子集。包裹式特征選擇比過濾式特征選擇更好,但由於需要在特征選擇的過程中多次訓練學習器,故計算開銷較大。
LVW(Las Vegas Wrapper)使用隨機策略來進行子集搜索。以最終分類器的誤差為特征子集的評價標准。交叉驗證的方法來估計學習器的誤差,不斷的隨機選擇特征子集進行子集更新,直到停止條件滿足不再進行子集更新。
11.4嵌入式選擇與L1正則化
過濾式和包裹式特征選擇中,特征選擇過程與學習器訓練過程有明顯的分別。對於嵌入式特征選擇而言,特征選擇和學習器訓練過程融為一體,在同一個優化過程中完成,在學習器訓練過程中自動的進行了特征選擇。