一、拉普拉斯特征映射(Laplacian Eigenmaps,LE)
(1)特点
- 非线性的降维方法
- 降维的同时保留局部近邻节点的信息
- 属于流形学习
(2)目标函数
未添加限制条件:
添加限制条件并简化后:
(3)需求解的特征方程
(4)优点
- LE的局部特征保留特性使得它对孤立点和噪音不会那么敏感
- 算法基于流形的内在几何结构,因此它展示出嵌入的稳定性。只要嵌入是等度量的(Isometric),这个表示就是不变的。在移动相机的例子里,相机不同的解析度将会导致同一个流形嵌入到不同维度的空间中去。我们的算法可以产生相似的表现(Representation),即使是不同的分辨率.
二、局部保留投影(Locality Preserving Projections,LPP)
(1)特点
- 线性降维
- 降维的同时保留局部近邻节点的信息
- 属于流形学习
(2)目标函数
未添加限制条件:$$\sum_{ij}({\mathit y_i,-,y_j})^2\mathbf W_{ij}$$
添加限制条件并简化后:
(3)待求解的特征方程
(4)优点
- 线性方法
- LPP被定义在空间的任何一点。与之对比的是,ISOMAP,LLE,LE等算法都只能用于训练数据上,而对于新的测试数据却并没有一个比较好的映射
- LPP算法可以被引入数据集所映射到的RKHS(再生核希尔伯特空间),因此就有了核LPP算法
三、多维缩放(Multidimensional Scaling,MDS)
(1)特点
- 在降维的同时尽量保持欧式距离不变\(:\bf X \to Z\)同时$D_{ij} = {\parallel x_i-x_j\parallel}_2={\parallel z_i-z_j \parallel}_2 $
- 非线性
(2)算法核心推导
1.D->B:
\(b_{ij}\,=\, -{ {1 \over 2} (dist_{ij}^2 - dist_{i \cdot}^2 - dist_{\cdot j}^2 + dist_{\cdot \cdot}^2 ) }\)
2.B->Z
\(\bf B\,=\,V\Lambda V^T \\ {\bf Z\,=\,\Lambda^{1 \over 2}V^T}\)
四、等度量映射(Isometric Mapping,Isomap)
(1)特点
- 属于流形学习的一种
- 认为低维流形嵌入高维空间后,低维流形两点间的距离是测地线距离(geodesic)
- 利用两点间的最短路径来近似两点间的测地线距离。因此,当空间中的数据点稠密时,近似效果较好,误差较小;当数据点稀疏时,效果就不太好。
(2)算法核心步骤
kNN找近邻 -> 最短路径计算 -> 距离矩阵输入MDS -> 从MDS得到低维的矩阵
五、局部线性嵌入(Locally Linear Embedding,LLE)
(1)特点
- 假设数据在较小的局部是线性的,也就是说,某一个数据可以由它邻域中的几个样本来线性表示,\(x_i=w_{ij}x_{ij}+w_{ik}x_{ik}+w_{il}x_{il}\)
- 算法试图在降维到低维空间时保持样本间的这种线性关系
- 相比于Isomap求全局最优解,LLE算法计算量较小
(2)算法核心推导
X->W:
目标函数1
令\(C_{jk}=(x_i-x_j)^T(x_i-x_j).\)由上式推出
于是得到\(\bf W\)
W->M->Z
目标函数2
令\(\bf M=(I-W)^T(I-W)\),则目标函数2化简为
上式可通过特征值分解求解:M最小的\(d^{'}\)个特征值对应的特征向量组成的矩阵即为\(Z^T\).
六、线性判别分析(Linear Discriminant Analysis,LDA)
(1)特点
- 映射后类内方差最小,类间方差最大
(2)算法核心步骤
计算类间散度矩阵:
其中,假设有k个类,每个类有\(N_j\)个节点,每个类的均值节点为\(\mu_j\),所有节点的均值节点为\(\mu\)
计算类内散度矩阵:
其中,\(X_j\)为第j类样本的集合.
目标函数:
其中\(\prod\limits_{diag}A\)为A的主对角线元素的乘积,W为m×d的矩阵。
求投影矩阵
求矩阵\(S_w^{-1}S_b\),计算\(S_w^{-1}S_b\)的最大的d个特征值和对应的d个特征向量\((w_1,w_2,...w_d)\)得到投影矩阵\(W\).
于是\(z_i=W^Tx_i\)
七、主分量分析(Principal components analysis,PCA)
(1)特点
- 第一种解释:尝试找到一个超平面,样本点到这个超平面的距离足够近
- 第二种解释:尝试找到一个投影的方向,样本点投影后的点的方差最大
(2)算法核心
最大投影方差:
设\(W\)为投影矩阵,则样本\(x^{(i)}\)在新坐标里的投影为\(W^Tx^{(i)}\),在新坐标内的方差为\(W^Tx^{(i)}x^{(i)T}W\),则目标函数为:
由拉格朗日函数可以求得上述方程的解为:
则W为\(XX^T\)的n'个特征向量组成的矩阵,而−λ为\(XX^T\)的特征值。当我们将数据集从n维降到n'维时,需要找到最大的n'个特征值对应的特征向量。这n'个特征向量组成的矩阵W即为我们需要的矩阵。
Reference
[1]《机器学习》.周志华
[2] 刘建平的博客