主成分分析


主成分分析(Principal Component Analysis, PCA )是一種利用線性映射來進行數據降維的方法,並去除數據的相關性; 且最大限度保持原始數據的方差信息

線性映射,去相關性,方差保持

線性映射

\[F = \sum_{i=1}^{p}u_iX_i = u^{T}X \]

相當於加權求和,每一組權重系數為一個主成份,它的維數跟輸入數據維數相同

相當於點積

F的幾何意義表示為x在投影方向u上的投影點。

主成分分析的計算方式

X是p維(列)向量,主成份分析就是要把這p維原始向量通過線性映射變成K維新向量的過程.(k≤p)

image

這里的u為\(k \times p\)的矩陣

主成分分析

主成分分析最早用於經濟學,經濟學家通過降維利用3維向量能夠保持原始17維向量,97.4%的方差信息

核心提示是在低維空間能夠盡可能多保持原始空間數據的方差

數據集合中各數據與平均樣本的差的平方和的平均數叫做樣本方差

主成份分析試圖在力保數據信息丟失最少的原則下,對高維空間的數據降維處理。
很顯然,識別系統在一個低維空間要比在一個高維空間容易得多。
能夠去除數據的相關性,從而進行有效的特征提取

image

方差越大,數據的分布越分散,從而越能保持原 始空間中的距離信息

如上圖所示,原始數據空間中,類別信息沒有丟失,但是維度減少50%

數學模型

image

image

數學可行性推導

若A是p階正定或者半正定實陣,則一定可以找到正交陣U,使

image

若上述矩陣的特征根所對應的單位特征向量為

image

則實對稱陣 A屬於不同特征根所對應的特征向量是正交的,即有\(U^{T}U=UU^{t}=I\)

主成分分析的數學推導

數學推導見筆記

核主成分分析

主成分分析(Principal Components Analysis, PCA)適用於數據的線性降維。而核主成分分析(Kernel PCA, KPCA)可實現數據的非線性降維,用於處理線性不可分的數據集。

設X=\([x_1,...,x_n]\),中\(x_1...x_N\)都是k維列向量,表示一個樣本,共N個樣本

現在用一非線性映射\(\phi\)將X中的向量x映射到高維空間(D維)

\[\phi(x):R^{k} \rightarrow R^{D}, D>>k \]

這個高維空間成為特征空間,記為。\(\digamma\)

將矩陣\(X\)中所有樣本都映射到特征空間上,得到\(D \times N\)的新矩陣。

接下來用新矩陣進行PCA降維,我們將新矩陣中心化

在PCA中,樣本\(X\)的協方差矩陣為\(\frac{1}{N}X^{T}X\),此時特征空間中的協方差矩陣為

\[C_{\digamma} = \frac{1}{N}\phi(X)[\phi(X)^{T}] = \frac{1}{N} \sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T} \]

對於求解該主成分分析特征值的問題,由於映射是不可知的,所以不能直接求解\(\phi(X)\phi(X)^{T}\)。所以要使用其他方法求解

\(\sum_xp = \lambda p\),得出\(\sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T}p= \lambda p\),兩邊除以\(\lambda\)得,

\[p = \frac{1}{\lambda}\sum_{i=1}^{N}(\phi(x_i)[\phi(x_i)^{T}p]) \]

中括號內為標量,所以表示\(\lambda \neq 0\)時,對應得特征向量p可以表示為所有\(\phi(x_i)\)的線性組合。

\(p = \sum_{i=1}^{N}a_i\phi(x_i)=\phi(X)\alpha\)

其中\(\alpha\)為N維列向量\(\alpha = [\alpha_1,\alpha_2,...,\alpha_N]^T\)

帶回到(4)式

image

兩邊左乘\([\phi(X)^{T}]\),得

image

定義矩陣\(K =[\phi(X)]^{T}\phi(X)\),則K為\(N \times N\)的半對稱正定矩陣,其\(i\)\(j\)列的元素為\(K_{ij}= \phi(x_i)^{T}[\phi(x_j)]\)

將K帶入,得:

image

即為

\[K\alpha = \lambda \alpha \]

因為矩陣K的元素可由\(K_{ij} = \phi(x)^{T}[\phi(x_j)]\)計算得到,不需要顯式定義映射\(\phi(x)\),只需要定義特征空間中向量的點積,就是核技巧

定義核函數\(k(x,y)=\phi(x)^{T}\phi(y)\)

核技巧的核心就是通過定義核函數點積而不是定義映射。

常用核函數

多項式核

\(k(x,y)=(ax^{T}+c)^{d}\)

高斯核

\(k(x,y)=exp(-\frac{||x-y||^{2}}{2\sigma^2})=exp(-\gamma||x-y||^{2})\)

sigmond核

\(k(x,y)=tanh(aX^{T}y+r)\)

參考博客

數據降維: 核主成分分析(Kernel PCA)原理解析 - 知乎 (zhihu.com)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM