主成分分析(Principal Component Analysis, PCA )是一種利用線性映射來進行數據降維的方法,並去除數據的相關性; 且最大限度保持原始數據的方差信息
線性映射,去相關性,方差保持
線性映射
相當於加權求和,每一組權重系數為一個主成份,它的維數跟輸入數據維數相同
相當於點積
F的幾何意義表示為x在投影方向u上的投影點。
主成分分析的計算方式
X是p維(列)向量,主成份分析就是要把這p維原始向量通過線性映射變成K維新向量的過程.(k≤p)
這里的u為\(k \times p\)的矩陣
主成分分析
主成分分析最早用於經濟學,經濟學家通過降維利用3維向量能夠保持原始17維向量,97.4%的方差信息
核心提示是在低維空間能夠盡可能多保持原始空間數據的方差
數據集合中各數據與平均樣本的差的平方和的平均數叫做樣本方差
主成份分析試圖在力保數據信息丟失最少的原則下,對高維空間的數據降維處理。
很顯然,識別系統在一個低維空間要比在一個高維空間容易得多。
能夠去除數據的相關性,從而進行有效的特征提取
方差越大,數據的分布越分散,從而越能保持原 始空間中的距離信息
如上圖所示,原始數據空間中,類別信息沒有丟失,但是維度減少50%
數學模型
數學可行性推導
若A是p階正定或者半正定實陣,則一定可以找到正交陣U,使
若上述矩陣的特征根所對應的單位特征向量為
則實對稱陣 A屬於不同特征根所對應的特征向量是正交的,即有\(U^{T}U=UU^{t}=I\)
主成分分析的數學推導
數學推導見筆記
核主成分分析
主成分分析(Principal Components Analysis, PCA)適用於數據的線性降維。而核主成分分析(Kernel PCA, KPCA)可實現數據的非線性降維,用於處理線性不可分的數據集。
設X=\([x_1,...,x_n]\),中\(x_1...x_N\)都是k維列向量,表示一個樣本,共N個樣本
現在用一非線性映射\(\phi\)將X中的向量x映射到高維空間(D維)
這個高維空間成為特征空間,記為。\(\digamma\)
將矩陣\(X\)中所有樣本都映射到特征空間上,得到\(D \times N\)的新矩陣。
接下來用新矩陣進行PCA降維,我們將新矩陣中心化
在PCA中,樣本\(X\)的協方差矩陣為\(\frac{1}{N}X^{T}X\),此時特征空間中的協方差矩陣為
對於求解該主成分分析特征值的問題,由於映射是不可知的,所以不能直接求解\(\phi(X)\phi(X)^{T}\)。所以要使用其他方法求解
\(\sum_xp = \lambda p\),得出\(\sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T}p= \lambda p\),兩邊除以\(\lambda\)得,
中括號內為標量,所以表示\(\lambda \neq 0\)時,對應得特征向量p可以表示為所有\(\phi(x_i)\)的線性組合。
\(p = \sum_{i=1}^{N}a_i\phi(x_i)=\phi(X)\alpha\)
其中\(\alpha\)為N維列向量\(\alpha = [\alpha_1,\alpha_2,...,\alpha_N]^T\)
帶回到(4)式
兩邊左乘\([\phi(X)^{T}]\),得
定義矩陣\(K =[\phi(X)]^{T}\phi(X)\),則K為\(N \times N\)的半對稱正定矩陣,其\(i\)行\(j\)列的元素為\(K_{ij}= \phi(x_i)^{T}[\phi(x_j)]\)
將K帶入,得:
即為
因為矩陣K的元素可由\(K_{ij} = \phi(x)^{T}[\phi(x_j)]\)計算得到,不需要顯式定義映射\(\phi(x)\),只需要定義特征空間中向量的點積,就是核技巧。
定義核函數\(k(x,y)=\phi(x)^{T}\phi(y)\)。
核技巧的核心就是通過定義核函數點積而不是定義映射。
常用核函數
多項式核
\(k(x,y)=(ax^{T}+c)^{d}\)
高斯核
\(k(x,y)=exp(-\frac{||x-y||^{2}}{2\sigma^2})=exp(-\gamma||x-y||^{2})\)
sigmond核
\(k(x,y)=tanh(aX^{T}y+r)\)