一、概念
特征選擇feature selection:也被稱為variable selection或者attribute selection. 是選取已有屬性的子集subset來進行建模的一種方式.
進行特征選擇的目的主要有: 簡化模型,縮短訓練時間,避免維數災難(curse of dimensionality), 增強model的泛化能力.
降維dimensionality reduction: 通過對原有的feature進行重新組合,形成新的feature,選取其中的principal components. 常用降維方法有PCA和SVD分解.
dimensionality reduction和feature selection差別主要在於: 前者在原有的feature上生成了新的feature, 后者只是選取原有feautre 集合中的子集,而不對原有集合進行修改.
二、特征選擇方法
filter method: 通過統計學的方法對每個feature給出一個score, 通過score對特征進行排序,然后從中選取score最高的子集. 這種方法僅僅是對每個feature進行獨立考慮,沒有考慮到feature之間的依賴性或相關性. 常用的方法有: 卡方檢驗,信息增益等.
wrapper method: 和filter method 相比, wrapper method 考慮到了feature 之間的相關性, 通過考慮feature的組合對於model性能的影響. 比較不同組合之間的差異,選取性能最好的組合. 比如recursive feature selection
embedded method: 結合前面二者的優點, 在模型建立的時候,同時計算模型的准確率. 最常見的embedded method 是 regularization methods(簡單來說就是通過增加penalization coefficients來約束模型的復雜度).
三、降維的方法
PCA:
SVD: