通過主成分分析方法進行降維


  在高維數據上工作會碰到很多問題:分析很困難,解讀起來困難,不能可視化,對於數據的存儲也很昂貴。高維數據還是值得研究,比如有些維度是冗余,某一個維度其實是可以被其他幾個維度的組合進行解釋。正因為某些維度是相關的,所以高維數據內在有更低維的結構。降維方法就是探索數據的內在相關性生成一個壓縮后的數據,同時盡可能減少信息的損失。所以降維方法也可以看做是一個壓縮方法,類似於jpeg,mp3對於圖片和音樂的壓縮。

  主成分分析是一種線性降維,由Pearson和Hotelling提出已經有上百年了,仍然最常用的數據壓縮和數據可視化的方法,可以用於識別簡單的模式,隱藏的因素和高維數據的結構。

 

我們知道一個n維向量x到一個單位向量$\omega$上的投影是$\omega^{T}x$, 假如有d個正交的基坐標形成新的子空間,向量x在這個d維的子空間(坐標系)下的投影變為$z = B^{T}x$,其中$B=[\omega_{1}, \omega_{2}, ..., \omega_{d}]$ 是一個n*d的矩陣,這樣n維向量x映射成為了一個d維向量。我們的目標就是找到這么一個合適的B,使得新的向量接近於原向量。

從方差的角度看,主成分分析可以認為是在子空間里面最大化數據的方差,這樣可以讓信息保留得盡可能地多。計算$\omega^{T}x$的方差, $D(x)=w^{T}(\frac{1}{n}\sum{x*x^{T}})w = w^{T} \Sigma w$,其中$\Sigma$是協方差矩陣,約束條件是 $w^{T}*w=1$。通過拉格朗日變換得到拉格朗日對偶問題

$L=w^{T}(\frac{1}{n}\sum{x*x^{T}})w + \lambda(1-w^{T}w)$, 對w和$\lambda$求偏導

$\frac{\vartheta L}{\vartheta w}=2 w^{T}\sum - 2\lambda w^{T}$

$\frac{\vartheta L}{\vartheta \lambda}=1 - w^{T}*w$

讓偏導為0,可以得到 $\Sigma w = \lambda w$, 並且 $D(x) = \lambda$,於是x在特征向量w方向上的投影都是方差的極值點,此時方差的大小就是特征值的大小。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM