常見降維方法的總結

本文轉載自查看原文 2017-06-24 23:39 5729

一、拉普拉斯特征映射(Laplacian Eigenmaps,LE)

(1)特點

非線性的降維方法
降維的同時保留局部近鄰節點的信息
屬於流形學習

(2)目標函數

未添加限制條件:

\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij} \]

添加限制條件並簡化后:

\[\underset{\mathbf {y^TDy}=1,\mathbf {y^TD1=0} }{\operatorname{argmin}}\mathbf {y^TLy} \]

(3)需求解的特征方程

\[\mathbf {Ly\,=\,\lambda Dy} \]

(4)優點

LE的局部特征保留特性使得它對孤立點和噪音不會那么敏感
算法基於流形的內在幾何結構，因此它展示出嵌入的穩定性。只要嵌入是等度量的(Isometric)，這個表示就是不變的。在移動相機的例子里，相機不同的解析度將會導致同一個流形嵌入到不同維度的空間中去。我們的算法可以產生相似的表現（Representation）,即使是不同的分辨率.

二、局部保留投影(Locality Preserving Projections,LPP)

(1)特點

線性降維
降維的同時保留局部近鄰節點的信息
屬於流形學習

(2)目標函數

未添加限制條件:$$\sum_{ij}({\mathit y_i,-,y_j})^2\mathbf W_{ij}$$
添加限制條件並簡化后:

\[\underset{\underset{\bf a^TXDX^Ta=1}{a}}{\operatorname{argmin}}\bf a^TXLX^Ta \]

(3)待求解的特征方程

\[XLX^T\bf {a}\,=\,\lambda XDX^T\bf a \]

(4)優點

線性方法
LPP被定義在空間的任何一點。與之對比的是，ISOMAP，LLE，LE等算法都只能用於訓練數據上，而對於新的測試數據卻並沒有一個比較好的映射
LPP算法可以被引入數據集所映射到的RKHS(再生核希爾伯特空間)，因此就有了核LPP算法

三、多維縮放（Multidimensional Scaling,MDS）

(1)特點

在降維的同時盡量保持歐式距離不變$:\bf X \to Z$同時$D_{ij} = {\parallel x_i-x_j\parallel}_2={\parallel z_i-z_j \parallel}_2 $
非線性

(2)算法核心推導

1.D->B:
$b_{ij}\,=\, -{ {1 \over 2} (dist_{ij}^2 - dist_{i \cdot}^2 - dist_{\cdot j}^2 + dist_{\cdot \cdot}^2 ) }$
2.B->Z
$\bf B\,=\,V\Lambda V^T \\ {\bf Z\,=\,\Lambda^{1 \over 2}V^T}$

四、等度量映射（Isometric Mapping，Isomap)

(1)特點

屬於流形學習的一種
認為低維流形嵌入高維空間后，低維流形兩點間的距離是測地線距離（geodesic)
利用兩點間的最短路徑來近似兩點間的測地線距離。因此，當空間中的數據點稠密時，近似效果較好，誤差較小；當數據點稀疏時，效果就不太好。

(2)算法核心步驟

kNN找近鄰 -> 最短路徑計算 -> 距離矩陣輸入MDS -> 從MDS得到低維的矩陣

五、局部線性嵌入(Locally Linear Embedding,LLE)

(1)特點

假設數據在較小的局部是線性的，也就是說，某一個數據可以由它鄰域中的幾個樣本來線性表示，$x_i=w_{ij}x_{ij}+w_{ik}x_{ik}+w_{il}x_{il}$
算法試圖在降維到低維空間時保持樣本間的這種線性關系
相比於Isomap求全局最優解，LLE算法計算量較小

(2)算法核心推導

X->W:
目標函數1

\[ \underset{w_1,w_2,\cdots,w_m}{\operatorname{min}} \sum_{i=1}^m || x_i-\sum_{j\in Q_i} w_{ij}x_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]

令$C_{jk}=(x_i-x_j)^T(x_i-x_j).$由上式推出

\[w_{ij}={{\sum\limits_{k\in Q_i}C_{jk}^{-1}}\over{\sum\limits_{l,s\in Q_i}C_{ls}^{-1}}} \]

於是得到$\bf W$

W->M->Z
目標函數2

\[ \underset{z_1,z_2,\cdots,z_m}{\operatorname{min}} \sum_{i=1}^m || z_i-\sum_{j\in Q_i} w_{ij}z_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]

令$\bf M=(I-W)^T(I-W)$，則目標函數2化簡為

\[\underset{\bf Z}{\operatorname{min}}\,tr(\bf ZMZ^T),\qquad s.t. \; \bf ZZ^T=I\]

上式可通過特征值分解求解:M最小的$d^{'}$個特征值對應的特征向量組成的矩陣即為$Z^T$.

六、線性判別分析（Linear Discriminant Analysis,LDA）

(1)特點

映射后類內方差最小，類間方差最大

(2)算法核心步驟

計算類間散度矩陣：

\[S_b = \sum\limits_{j=1}^{k}N_j(\mu_j-\mu)(\mu_j-\mu)^T \]

其中,假設有k個類,每個類有$N_j$個節點,每個類的均值節點為$\mu_j$,所有節點的均值節點為$\mu$
計算類內散度矩陣：

\[S_w = \sum\limits_{j=1}^{k}S_{wj} = \sum\limits_{j=1}^{k}\sum\limits_{x \in X_j}(x-\mu_j)(x-\mu_j)^T \]

其中,$X_j$為第j類樣本的集合.
目標函數：

\[\underbrace{arg\;max}_W\;\;J(W) = \frac{\prod\limits_{diag}W^TS_bW}{\prod\limits_{diag}W^TS_wW} \]

其中$\prod\limits_{diag}A$為A的主對角線元素的乘積，W為m×d的矩陣。
求投影矩陣
求矩陣$S_w^{-1}S_b$,計算$S_w^{-1}S_b$的最大的d個特征值和對應的d個特征向量$(w_1,w_2,...w_d)$得到投影矩陣$W$.
於是$z_i=W^Tx_i$

七、主分量分析(Principal components analysis,PCA)

(1)特點

第一種解釋：嘗試找到一個超平面，樣本點到這個超平面的距離足夠近
第二種解釋：嘗試找到一個投影的方向，樣本點投影后的點的方差最大

(2)算法核心

最大投影方差：
設$W$為投影矩陣，則樣本$x^{(i)}$在新坐標里的投影為$W^Tx^{(i)}$,在新坐標內的方差為$W^Tx^{(i)}x^{(i)T}W$,則目標函數為:

\[\underbrace{arg\;max}_{W}\;tr( W^TXX^TW) \;\;s.t. W^TW=I \]

由拉格朗日函數可以求得上述方程的解為:

\[XX^TW=(-\lambda)W \]

則W為$XX^T$的n'個特征向量組成的矩陣，而−λ為$XX^T$的特征值。當我們將數據集從n維降到n'維時，需要找到最大的n'個特征值對應的特征向量。這n'個特征向量組成的矩陣W即為我們需要的矩陣。

Reference

[1]《機器學習》.周志華
[2] 劉建平的博客

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【深度學習】數據降維方法總結機器學習降維方法總結數據降維方法小結降維（一）維度災難與降維主要方法淺談降維方法降維方法的優缺點單細胞測序數據的降維方法及細胞亞型的鑒定聚類方法總結單細胞測序數據的降維方法及細胞亞型鑒定聚類方法總結 UIView 中常見的方法總結機器學習之降維方法