一、拉普拉斯特征映射(Laplacian Eigenmaps,LE)
(1)特點
- 非線性的降維方法
- 降維的同時保留局部近鄰節點的信息
- 屬於流形學習
(2)目標函數
未添加限制條件:
添加限制條件並簡化后:
(3)需求解的特征方程
(4)優點
- LE的局部特征保留特性使得它對孤立點和噪音不會那么敏感
- 算法基於流形的內在幾何結構,因此它展示出嵌入的穩定性。只要嵌入是等度量的(Isometric),這個表示就是不變的。在移動相機的例子里,相機不同的解析度將會導致同一個流形嵌入到不同維度的空間中去。我們的算法可以產生相似的表現(Representation),即使是不同的分辨率.
二、局部保留投影(Locality Preserving Projections,LPP)
(1)特點
- 線性降維
- 降維的同時保留局部近鄰節點的信息
- 屬於流形學習
(2)目標函數
未添加限制條件:$$\sum_{ij}({\mathit y_i,-,y_j})^2\mathbf W_{ij}$$
添加限制條件並簡化后:
(3)待求解的特征方程
(4)優點
- 線性方法
- LPP被定義在空間的任何一點。與之對比的是,ISOMAP,LLE,LE等算法都只能用於訓練數據上,而對於新的測試數據卻並沒有一個比較好的映射
- LPP算法可以被引入數據集所映射到的RKHS(再生核希爾伯特空間),因此就有了核LPP算法
三、多維縮放(Multidimensional Scaling,MDS)
(1)特點
- 在降維的同時盡量保持歐式距離不變\(:\bf X \to Z\)同時$D_{ij} = {\parallel x_i-x_j\parallel}_2={\parallel z_i-z_j \parallel}_2 $
- 非線性
(2)算法核心推導
1.D->B:
\(b_{ij}\,=\, -{ {1 \over 2} (dist_{ij}^2 - dist_{i \cdot}^2 - dist_{\cdot j}^2 + dist_{\cdot \cdot}^2 ) }\)
2.B->Z
\(\bf B\,=\,V\Lambda V^T \\ {\bf Z\,=\,\Lambda^{1 \over 2}V^T}\)
四、等度量映射(Isometric Mapping,Isomap)
(1)特點
- 屬於流形學習的一種
- 認為低維流形嵌入高維空間后,低維流形兩點間的距離是測地線距離(geodesic)
- 利用兩點間的最短路徑來近似兩點間的測地線距離。因此,當空間中的數據點稠密時,近似效果較好,誤差較小;當數據點稀疏時,效果就不太好。
(2)算法核心步驟
kNN找近鄰 -> 最短路徑計算 -> 距離矩陣輸入MDS -> 從MDS得到低維的矩陣
五、局部線性嵌入(Locally Linear Embedding,LLE)
(1)特點
- 假設數據在較小的局部是線性的,也就是說,某一個數據可以由它鄰域中的幾個樣本來線性表示,\(x_i=w_{ij}x_{ij}+w_{ik}x_{ik}+w_{il}x_{il}\)
- 算法試圖在降維到低維空間時保持樣本間的這種線性關系
- 相比於Isomap求全局最優解,LLE算法計算量較小
(2)算法核心推導
X->W:
目標函數1
令\(C_{jk}=(x_i-x_j)^T(x_i-x_j).\)由上式推出
於是得到\(\bf W\)
W->M->Z
目標函數2
令\(\bf M=(I-W)^T(I-W)\),則目標函數2化簡為
上式可通過特征值分解求解:M最小的\(d^{'}\)個特征值對應的特征向量組成的矩陣即為\(Z^T\).
六、線性判別分析(Linear Discriminant Analysis,LDA)
(1)特點
- 映射后類內方差最小,類間方差最大
(2)算法核心步驟
計算類間散度矩陣:
其中,假設有k個類,每個類有\(N_j\)個節點,每個類的均值節點為\(\mu_j\),所有節點的均值節點為\(\mu\)
計算類內散度矩陣:
其中,\(X_j\)為第j類樣本的集合.
目標函數:
其中\(\prod\limits_{diag}A\)為A的主對角線元素的乘積,W為m×d的矩陣。
求投影矩陣
求矩陣\(S_w^{-1}S_b\),計算\(S_w^{-1}S_b\)的最大的d個特征值和對應的d個特征向量\((w_1,w_2,...w_d)\)得到投影矩陣\(W\).
於是\(z_i=W^Tx_i\)
七、主分量分析(Principal components analysis,PCA)
(1)特點
- 第一種解釋:嘗試找到一個超平面,樣本點到這個超平面的距離足夠近
- 第二種解釋:嘗試找到一個投影的方向,樣本點投影后的點的方差最大
(2)算法核心
最大投影方差:
設\(W\)為投影矩陣,則樣本\(x^{(i)}\)在新坐標里的投影為\(W^Tx^{(i)}\),在新坐標內的方差為\(W^Tx^{(i)}x^{(i)T}W\),則目標函數為:
由拉格朗日函數可以求得上述方程的解為:
則W為\(XX^T\)的n'個特征向量組成的矩陣,而−λ為\(XX^T\)的特征值。當我們將數據集從n維降到n'維時,需要找到最大的n'個特征值對應的特征向量。這n'個特征向量組成的矩陣W即為我們需要的矩陣。
Reference
[1]《機器學習》.周志華
[2] 劉建平的博客