本篇博客的目的不是深刻的講解特征提取和特征選擇的方法,而是區分清楚他們之間的關系和區別,讓大家對特征抽取 特征選擇 PCA LDA有個概念框架上的了解,為大家的下一步的深入理解打好基礎。 如果我的理解有問題,請大家提出意見,互相交流。本文來自csdn
1.特征抽取 V.S 特征選擇
特征抽取和特征選擇是DimensionalityReduction(降維)的兩種方法,針對於the curse of dimensionality(維災難),都可以達到降維的目的。但是這兩個有所不同。
特征抽取(Feature Extraction):Creatting a subset of new features by combinations of the exsiting features.也就是說,特征抽取后的新特征是原來特征的一個映射。
特征選擇(Feature Selection):choosing a subset of all the features(the ones more informative)。也就是說,特征選擇后的特征是原來特征的一個子集。
2. PCA V.S LDA
主成分分析(Principle Components Analysis ,PCA)和線性評判分析(Linear Discriminant Analysis,LDA)是特征抽取的兩種主要經典方法。
對於特征抽取,有兩種類別:
(1)Signal representation(信號表示): The goal of the feature extraction mapping is to represent the samples accurately in a low-dimensional space. 也就是說,特征抽取后的特征要能夠精確地表示樣本信息,使得信息丟失很小。對應的方法是PCA.
(2)Signal classification(信號分類): The goal of the feature extraction mapping is toenhance the class-discriminatory information in a low-dimensional space. 也就是說,特征抽取后的特征,要使得分類后的准確率很高,不能比原來特征進行分類的准確率低。對與線性來說,對應的方法是LDA . 非線性這里暫時不考慮。
可見, PCA和LDA兩種方法的目標不一樣,因此導致他們的方法也不一樣。PCA得到的投影空間是協方差矩陣的特征向量,而LDA則是通過求得一個變換W,使得 變換之后的新均值之差最大、方差最大(也就是最大化類間距離和最小化類內距離),變換W就是特征的投影方向。
如果想進一步了解PCA,請見 http://blog.csdn.net/j123kaishichufa/article/details/7614234 點擊打開鏈接