特征選擇的一般過程
從特征全集中產生出一個特征子集,然后用評價函數對該特征子集進行評價,評價的結果與停止准則進行比較,若滿足停止准則就停止,否則就繼續產生下一組特征子集,繼續進行特征選擇。
特征子集產生過程( Generation Procedure )
采取一定的子集選取辦法,為評價函數提供特征子集。根據搜索過程的方法的不同,可以將特征選擇分為窮舉、啟發式、隨機幾種方法。
窮舉(完全)
最優優先搜索
BFS
分支界限搜索
定向搜索
啟發式
SFS SBS(序列前向、后向搜索)
評價函數( EvaluationFunction )
根據不同的評價准則,可以分為:過濾器模型、封裝器模型以及混合模型。過濾器模型是將特征選擇作為一個預處理過程,利用數據的內在特性對選取的特征子集進行評價,獨立於學習算法。
而封裝器模型則將后續學習算法的結果作為特征評價准則的一部分根據評價函數的不同(與采用的分類方法是否關聯),可以將特征選擇分為獨立性准則、關聯性度量。
常見的評價函數
卡方檢驗、相關性、距離、信息增益、屬於篩選器,而分類器錯誤率屬於封裝器。