PCA數學推導及原理（轉）

本文轉載自查看原文 2019-06-26 14:04 1431 ML

原文： https://zhuanlan.zhihu.com/p/26951643

在多元統計分析中，主成分分析（Principal components analysis，PCA）是一種分析、簡化數據集的技術。主成分分析經常用於減少數據集的維數，同時保持數據集中的對方差貢獻最大的特征。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。

PCA在機器學習中經常被用到，是數據預處理的重要步驟。它主要基於以下考慮：

高維特征中很多特征之間存在相關性，含有冗余信息
相比於低維數據，高維數據計算更復雜

PCA的數學原理

如下圖，平面上有很多二維空間的特征點，如果想對這些特征點做特征降維（變為一維），應該怎么做呢？大家應該都知道需要進行投影，但還要考慮在哪個方向上進行投影，例如圖中需要投影到長箭頭方向即可，但考慮為什么不在短箭頭上投影？

PCA本質上是一個有損的特征壓縮過程，但是我們期望損失的精度盡可能地少，也就是希望壓縮的過程中保留最多的原始信息。要達到這種目的，我們希望降維（投影）后的數據點盡可能地分散。如圖，相比於長箭頭，如果在短箭頭上進行投影，那么重疊的點會更多，也就意味着信息丟失的更多，因而選擇長箭頭方向。

基於這種思想，我們希望投影后的數據點盡可能地分散。而這種分散程度在數學上可以利用方差來表示。設降維后的特征為 $A$ ，也就是希望 $var(A)=\frac{1}{m}\sum_i^m(a_i-\mu_a)^2$ 盡可能地大（ $a_i$ 為特征 $A$ 中的值， $\mu_a$ 為均值），而由於在PCA降維前，一般已經做了特征零均值化處理，為了方便，記 $var(A)=\frac{1}{m}\sum_i^ma_i^2$ 。

同樣，為了減少特征的冗余信息，我們希望降維后的各特征之間互不相關。而不相關性可以用協方差來衡量。設降維后的兩個特征為 $A$ 、 $B$ ，則希望 $Cov(A,B)=\frac{1}{m}\sum_i^ma_ib_i$ 為0。

現假設我們的數據為

$\begin{align} X = \left[ \begin{matrix} a_1&b_1\\ a_2&b_2\\ \vdots&\vdots\\ a_m&b_m \end{matrix} \right] \end{align}$

構造出協方差矩陣，並乘以系數 $\frac{1}{m}$ ，則

$\begin{align} \frac{1}{m}X^TX = \left[ \begin{matrix} \frac{1}{m}\sum_i^ma_i^2&\frac{1}{m}\sum_i^ma_ib_i\\ \frac{1}{m}\sum_i^ma_ib_i&\frac{1}{m}\sum_i^mb_i^2\\ \end{matrix} \right] \end{align}$

可以看出 $\frac{1}{m}X^TX$ 的對角線元素就是各特征的方差，其他各位置的元素就是各特征之間的協方差。因而只需要降維后的數據協方差矩陣滿足對角矩陣的條件即可。

設 $Y$ 為原始數據 $X$ 做完PCA降維后的數據，滿足 $Y=XP$ （矩陣乘法相當於映射，若 $P$ 為的列向量為基向量，那么就相當於映射到新的坐標系）， $Y_c$ ， $X_c$ 分別為對應的協方差矩陣，那么

$\begin{align} &Y_c=\frac{1}{m}Y^TY\\ &=\frac{1}{m}(XP)^TXP\\ &=\frac{1}{m}P^TX^TXP\\ &=P^T(\frac{1}{m}X^TX)P\\ &=P^TX_cP \end{align}$

因而，我們只需要計算出 $P$ ，使 $Y_c=P^TX_cP$ 滿足對角矩陣的條件即可。而 $X_c$ 為實對稱矩陣，我們只需要對它做矩陣對角化即可。

PCA的原理基本就是這樣，還是挺簡單的。

PCA的推導證明

PCA的構建：PCA需要構建一個編碼器 $f$ ，由輸入 $x\in R^n$ 得到一個最優編碼 $c\in R^l$ （若 $l<n$ ，則做了降維編碼）；同時有一個解碼器 $g$ ，解碼后的輸出 $g(c)$ 盡可能地與 $x$ 相近。

PCA由我們所選擇的解碼器決定，在數學上，我們使用矩陣將 $c$ 映射回 $R^n$ ，即 $g(c)=Dc$ ，其中 $D\in R^{n\times l}$ 定義解碼的矩陣。

為了限制PCA的唯一性，我們限制 $D$ 中所有列向量彼此正交且均有單位范數（否則 $D$ 、 $c$ 同比例增加、減少會產生無數個解）。

在數學上，為了滿足PCA構建中的條件，我們利用 $L_2$ 范數來衡量 $g(c)$ 與 $x$ 的相近程度。即 $c^*=argmin_c||x-g(c)||_2$ ，也就是 $c^*=argmin_c||x-g(c)||_2^2$

該最小化函數可以簡化為

$\begin{align} &(x-g(c))^T(x-g(c))\\ &=x^Tx-x^Tg(c)-g(c)^Tx+g(c)^Tg(c)\\ &=x^Tx-2x^Tg(c)+g(c)^Tg(c) \end{align}$

因而，優化目標變為 $c^*=argmin_c-2x^Tg(c)+g(c)^Tg(c)$ ，再帶入 $g(c)=Dc$ ，

$\begin{align} &c^*=argmin_c-2x^TDc+c^TD^TDc\\ &=argmin_c-2x^TDc+c^Tc(D^TD=I_l) \end{align}$

再求偏導

$\begin{align} &\nabla_c(-2x^TDc+c^Tc)=0\\ &-2D^Tx+2c=0\\ &c=D^Tx \end{align}$

於是我們可以得到編碼函數 $f(x)=D^Tx$ ，PCA的重構操作也就可以定義為 $r(x)=g(c)=g(f(x))=DD^Tx$ 。問題接着就轉化成如何求編碼矩陣 $D$ 。由於PCA算法是在整個數據矩陣上進行編碼，因而也要用 $D$ 對所有數據進行解碼，所以需要最小化所有維上的誤差矩陣的Frobenius范數：

$D^*=argmin_D\sqrt{\sum_{i,j}(x^{(i)}-r(x^{(i)}))_j^2}~~subject~to~D^TD=I_l$

我們考慮 $l=1$ 的情況，則 $D$ 是一個單一向量 $d$ ，則上式可以轉化為

$d^*=argmin_d\sum_{i}||(x^{(i)}-dd^Tx^{(i)}||_2^2~~subject~to~||d||_2=1$

而 $d^Tx^{(i)}$ 為標量，轉置與自身相等，上式通常寫作

$d^*=argmin_d\sum_{i}||(x^{(i)}-x^{(i)T}dd||_2^2~~subject~to~||d||_2=1$

再將每一個輸入點疊加起來，我們得到

$d^*=argmin_d\sum_{i}||X-X^{T}dd||_F^2~~subject~to~d^Td=1$

Frobenius范數簡化成（考慮約束條件 $d^Td=1$ ）

$\begin{align} &argmin_d\sum_{i}||X-X^{T}dd||_F^2\\ &=argmin_dTr((X-X^{T}dd)^T(X-X^{T}dd))\\ &=argmin_dTr(X^TX-X^TXd^T-dd^TX^TX+dd^TX^TXdd^T)\\ &=argmin_d-Tr(X^TXd^T)+Tr(dd^TX^TX)+Tr(dd^TX^TXdd^T)\\ &=argmin_d-2Tr(X^TXdd^T)+Tr(dd^TX^TXdd^T)\\ &=argmin_d-2Tr(X^TXdd^T)+Tr(X^TXdd^Tdd^T)\\ &=argmin_d-Tr(X^TXdd^T)\\ &=argmax_dTr(X^TXdd^T)\\ &=argmax_dTr(d^TX^TXd)~~subject~to~d^Td=1 \end{align}$

最后的優化目標可以利用 $\frac{\partial Tr(ABA^TC)}{\partial A}=CAB+C^TAB^T$ 以及拉格朗日乘數法來求解，可得最優的 $d$ 是 $X^TX$ 的最大特征值對應的特征向量。

上面的推導特定於 $l=1$ 的情況，僅有一個主成分。一般來說，矩陣 $D$ 由 $X^TX$ 的前 $l$ 個最大的特征值對應的特征向量組成（利用歸納法，將 $D_{l+1}$ 表示為 $D_l$ 的函數即可，需要兩個輔助矩陣：單位對角矩陣 $R^{(l+1)\times l}$ 以及 $(0,0\cdots,0,1)^T\in R^{l+1}$ ，省去證明過程）。

參考

主成分分析
CodingLabs - PCA的數學原理
《Deep Learning》 Ian Goodfellow et al.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 PCA主成分分析算法的數學原理推導 KL變換和PCA的數學推導 PCA的數學原理降維算法----PCA原理推導【轉】一文讀懂PCA算法的數學原理 opencv——PCA（主要成分分析）數學原理推導主成分分析(PCA)原理及推導主成分分析(PCA)原理及推導【模式識別】PCA原理、推導及實現【數學】矩陣白化原理及推導