常見降維方法的總結


一、拉普拉斯特征映射(Laplacian Eigenmaps,LE)

(1)特點

  • 非線性的降維方法
  • 降維的同時保留局部近鄰節點的信息
  • 屬於流形學習

(2)目標函數

未添加限制條件:

\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij} \]

添加限制條件並簡化后:

\[\underset{\mathbf {y^TDy}=1,\mathbf {y^TD1=0} }{\operatorname{argmin}}\mathbf {y^TLy} \]

(3)需求解的特征方程

\[\mathbf {Ly\,=\,\lambda Dy} \]

(4)優點

  • LE的局部特征保留特性使得它對孤立點和噪音不會那么敏感
  • 算法基於流形的內在幾何結構,因此它展示出嵌入的穩定性。只要嵌入是等度量的(Isometric),這個表示就是不變的。在移動相機的例子里,相機不同的解析度將會導致同一個流形嵌入到不同維度的空間中去。我們的算法可以產生相似的表現(Representation),即使是不同的分辨率.

二、局部保留投影(Locality Preserving Projections,LPP)

(1)特點

  • 線性降維
  • 降維的同時保留局部近鄰節點的信息
  • 屬於流形學習

(2)目標函數

未添加限制條件:$$\sum_{ij}({\mathit y_i,-,y_j})^2\mathbf W_{ij}$$
添加限制條件並簡化后:

\[\underset{\underset{\bf a^TXDX^Ta=1}{a}}{\operatorname{argmin}}\bf a^TXLX^Ta \]

(3)待求解的特征方程

\[XLX^T\bf {a}\,=\,\lambda XDX^T\bf a \]

(4)優點

  • 線性方法
  • LPP被定義在空間的任何一點。與之對比的是,ISOMAP,LLE,LE等算法都只能用於訓練數據上,而對於新的測試數據卻並沒有一個比較好的映射
  • LPP算法可以被引入數據集所映射到的RKHS(再生核希爾伯特空間),因此就有了核LPP算法

三、多維縮放(Multidimensional Scaling,MDS)

(1)特點

  • 在降維的同時盡量保持歐式距離不變\(:\bf X \to Z\)同時$D_{ij} = {\parallel x_i-x_j\parallel}_2={\parallel z_i-z_j \parallel}_2 $
  • 非線性

(2)算法核心推導

1.D->B:
\(b_{ij}\,=\, -{ {1 \over 2} (dist_{ij}^2 - dist_{i \cdot}^2 - dist_{\cdot j}^2 + dist_{\cdot \cdot}^2 ) }\)
2.B->Z
\(\bf B\,=\,V\Lambda V^T \\ {\bf Z\,=\,\Lambda^{1 \over 2}V^T}\)

四、等度量映射(Isometric Mapping,Isomap)

(1)特點

  • 屬於流形學習的一種
  • 認為低維流形嵌入高維空間后,低維流形兩點間的距離是測地線距離(geodesic)
  • 利用兩點間的最短路徑來近似兩點間的測地線距離。因此,當空間中的數據點稠密時,近似效果較好,誤差較小;當數據點稀疏時,效果就不太好。

(2)算法核心步驟

kNN找近鄰 -> 最短路徑計算 -> 距離矩陣輸入MDS -> 從MDS得到低維的矩陣

五、局部線性嵌入(Locally Linear Embedding,LLE)

(1)特點

  • 假設數據在較小的局部是線性的,也就是說,某一個數據可以由它鄰域中的幾個樣本來線性表示,\(x_i=w_{ij}x_{ij}+w_{ik}x_{ik}+w_{il}x_{il}\)
  • 算法試圖在降維到低維空間時保持樣本間的這種線性關系
  • 相比於Isomap求全局最優解,LLE算法計算量較小

(2)算法核心推導

X->W:
目標函數1

\[ \underset{w_1,w_2,\cdots,w_m}{\operatorname{min}} \sum_{i=1}^m || x_i-\sum_{j\in Q_i} w_{ij}x_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]

\(C_{jk}=(x_i-x_j)^T(x_i-x_j).\)由上式推出

\[w_{ij}={{\sum\limits_{k\in Q_i}C_{jk}^{-1}}\over{\sum\limits_{l,s\in Q_i}C_{ls}^{-1}}} \]

於是得到\(\bf W\)

W->M->Z
目標函數2

\[ \underset{z_1,z_2,\cdots,z_m}{\operatorname{min}} \sum_{i=1}^m || z_i-\sum_{j\in Q_i} w_{ij}z_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]

\(\bf M=(I-W)^T(I-W)\),則目標函數2化簡為

\[\underset{\bf Z}{\operatorname{min}}\,tr(\bf ZMZ^T),\qquad s.t. \; \bf ZZ^T=I\]

上式可通過特征值分解求解:M最小的\(d^{'}\)個特征值對應的特征向量組成的矩陣即為\(Z^T\).

六、線性判別分析(Linear Discriminant Analysis,LDA)

(1)特點

  • 映射后類內方差最小,類間方差最大

(2)算法核心步驟

計算類間散度矩陣:

\[S_b = \sum\limits_{j=1}^{k}N_j(\mu_j-\mu)(\mu_j-\mu)^T \]

其中,假設有k個類,每個類有\(N_j\)個節點,每個類的均值節點為\(\mu_j\),所有節點的均值節點為\(\mu\)
計算類內散度矩陣:

\[S_w = \sum\limits_{j=1}^{k}S_{wj} = \sum\limits_{j=1}^{k}\sum\limits_{x \in X_j}(x-\mu_j)(x-\mu_j)^T \]

其中,\(X_j\)為第j類樣本的集合.
目標函數:

\[\underbrace{arg\;max}_W\;\;J(W) = \frac{\prod\limits_{diag}W^TS_bW}{\prod\limits_{diag}W^TS_wW} \]

其中\(\prod\limits_{diag}A\)為A的主對角線元素的乘積,W為m×d的矩陣。
求投影矩陣
求矩陣\(S_w^{-1}S_b\),計算\(S_w^{-1}S_b\)的最大的d個特征值和對應的d個特征向量\((w_1,w_2,...w_d)\)得到投影矩陣\(W\).
於是\(z_i=W^Tx_i\)

七、主分量分析(Principal components analysis,PCA)

(1)特點

  • 第一種解釋:嘗試找到一個超平面,樣本點到這個超平面的距離足夠近
  • 第二種解釋:嘗試找到一個投影的方向,樣本點投影后的點的方差最大

(2)算法核心

最大投影方差:
\(W\)為投影矩陣,則樣本\(x^{(i)}\)在新坐標里的投影為\(W^Tx^{(i)}\),在新坐標內的方差為\(W^Tx^{(i)}x^{(i)T}W\),則目標函數為:

\[\underbrace{arg\;max}_{W}\;tr( W^TXX^TW) \;\;s.t. W^TW=I \]

由拉格朗日函數可以求得上述方程的解為:

\[XX^TW=(-\lambda)W \]

則W為\(XX^T\)的n'個特征向量組成的矩陣,而−λ為\(XX^T\)的特征值。當我們將數據集從n維降到n'維時,需要找到最大的n'個特征值對應的特征向量。這n'個特征向量組成的矩陣W即為我們需要的矩陣。

Reference

[1]《機器學習》.周志華
[2] 劉建平的博客


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM