機器學習-特征選擇(降維) 線性判別式分析(LDA)

本文轉載自查看原文 2013-01-27 19:50 6516 機器學習/ 機器學習 LDA 降維特征選擇

特征選擇(亦即降維)是數據預處理中非常重要的一個步驟。對於分類來說，特征選擇可以從眾多的特征中選擇對分類最重要的那些特征，去除原數據中的噪音。主成分分析(PCA)與線性判別式分析(LDA)是兩種最常用的特征選擇算法。關於PCA的介紹，可以見我的另一篇博文。這里主要介紹線性判別式分析(LDA)，主要基於Fisher Discriminant Analysis with Kernals[1]和Fisher Linear Discriminant Analysis[2]兩篇文獻。

LDA與PCA的一大不同點在於，LDA是有監督的算法，而PCA是無監督的，因為PCA算法沒有考慮數據的標簽(類別)，只是把原數據映射到一些方差比較大的方向(基)上去而已。而LDA算法則考慮了數據的標簽。文獻[2]中舉了一個非常形象的例子，說明了在有些情況下，PCA算法的性能很差，如下圖：

我們用不同的顏色標注C1,C2兩個不同類別的數據。根據PCA算法，數據應該映射到方差最大的那個方向，亦即Y軸方向，但是如果映射到Y軸方向，C1,C2兩個不同類別的數據將完全混合在一起，很難區分開，所以使用PCA算法進行降維后再進行分類的效果會非常差。但是使用LDA算法，數據會映射到X軸方向。

LDA算法會考慮到數據的類別屬性，給定兩個類別C1、C2，我們希望找到一個向量ω,當數據映射到ω的方向上時，來自兩個類的數據盡可能的分開，同一個類內的數據盡可能的緊湊。數據的映射公式為：z=ω^Tx, 其中z是數據x到ω上的投影，因而也是一個d維到1維的維度歸約。

令m₁和m₁分別表示C1類數據投影之前個投影之后的均值，易知m₁=ω^Tm_1,同理m₂=ω^Tm₂

令s₁²和s₂²分別表示C1和C2類數據在投影之后的散布(scatter)，亦即s₁²=∑(ω^Tx^t-m1)²r^t，s₂²=∑(ω^Tx^t-m2)²（1-r^t）其中如果x^t∈C1,則r^t=1，否則r^t=0。

我們希望|m₁-m₂|盡可能的大，而s₁²+s₂²盡可能的小，Fisher線性判別式就是最大化下面式子的ω：

J(ω)=(m₁-m₂)²/(s₁²+s₂²) 式子-1

改寫式子-1中的分子： (m₁-m₂)²= (ω^Tm₁-ω^Tm₂)²=ω^T(m₁-m₂)(m₁-m₂)^Tω=ω^TS_Bω

其中S_B=(m₁-m₂)(m₁-m₂)^T 式子-2

是類間散布矩陣(between class scatter matrix)。

改寫式子-1中的分母：

∑(ω^Tx^t-m1)²r^t=∑ω^T(x^t-m₁)(x^t-m₁)^Tωr^t=ω^TS₁ω, 其中S₁=∑r^t(x^t-m₁)(x^t-m₁)^T是C1的類內散布矩陣(within class scatter matrix)。

令S_W=S₁+S₂，是類內散布的總和，則s₁²+s₂²=ω^TS_Wω。

所以式子-1可以改寫為：

J(ω)=(ω^TS_Bω)/(ω^TS_Wω) 式子-3

我們只需要使式子-3對於ω求導，然后使導數等於0，便可以求出ω的值：ω=cS_W^-1(m₁-m₂),其中c是一個參數，我們只對ω的方向感興趣，所以c可以取值為1.

另外，最后求得的 J(ω)的值等於λ_k，λ_k是S_W^-1S_B的最大的特征值，而ω則是S_W^-1S_B的最大特征值所對應的特征向量。

最后有一些關於LDA算法的討論，出自文獻[1]：

1. Fisher LDA對數據的分布做了一些很強的假設，比如每個類的數據都是高斯分布，各個類的協方差相等。雖然這些強假設很可能在實際數據中並不滿足，但是Fisher LDA已經被證明是非常有效地降維算法，其中的原因是線性模型對於噪音的魯棒性比較好，不容易過擬合，缺點是模型簡單，表達能力不強，為了增強Fisher LDA算法的表達能力，可以引入核函數，參見我的另外一篇博客機器學習-核Fisher LDA算法。

2. 准確的估計數據的散布矩陣是非常重要的，很可能會有較大的偏置。用式子-2進行估計在樣本數據比較少(相對於維數來說)時會產生較大的變異性。

參考文獻：

[1] Fisher Discriminant Analysis with Kernals. Sebastian Mika, Gunnar Ratsch, Jason Weston, Bernhadr Scholkopf, Klaus-Robert Muller.

[2] Fisher Linear Discriminant Analysis. Max Welling.

[3] 機器學習導論。 Ethem Alpaydin

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習：數據預處理，特征選擇，降維機器學習降維之線性判別分析機器學習之特征選擇方法機器學習：特征選擇 Fisher判別式（LDA）機器學習之特征選擇和特征抽取機器學習中的模型選擇和特征選擇的基本方法 python進行機器學習（二）之特征選擇機器學習之特征選擇（Feature Selection）機器學習中，有哪些特征選擇的工程方法？