1.流型介紹
流形學習的觀點:認為我們所能觀察到的數據實際上是由一個低維流行映射到高維空間的。由於數據內部特征的限制,一些高維中的數據會產生維度上的冗余,實際上這些數據只要比較低的維度就能唯一的表示。所以直觀上來講,一個流形好比是一個𝑑d維的空間,在一個𝑚m維的空間中(𝑚>𝑑)(m>d)被扭曲之后的結果。
下圖:瑞士卷就是一個例子

流形具有在局部與歐式空間同胚的空間,也就是它在局部具有歐式空間的性質,能用歐式距離來進行距離計算。這就給降維帶來了很大的啟發,若低維流形嵌入到了高維空間,此時樣本在高維空間的分布雖然復雜,但在局部上仍具有歐式空間的性質,因此可以在局部建立降維映射關系,然后再設法將局部映射關系推廣到全局。而且當數據被降維到二維和三維時,就可以進行可視化,因此流形學習也可以被用於可視化。
2、流型學習典型算法介紹
流形學習方法具有一些共同的特征:首先構造流形上樣本點的局部鄰域結構,然后用這 些局部鄰域結構來將樣本點全局的映射到一個低維空間。它們之間的不同之處主要是在於構 造的局部鄰域結構不同以及利用這些局部鄰域結構來構造全局的低維嵌入方法的不同。
-1.ISOMAP
ISOMAP引入測地線距離來表示潛在流形上點與點之間的距離,並在降維過程中保持該距離不變。
保持全局測地距離: 測地距離反映數據在流形上的真實距離差異。
等距映射: 基於線性算法MDS,采用“測地距離”作為數據差異度量。
順帶介紹一下MDS算法思想
MDS是一種非監督的維數約簡方法。
MDS的基本思想:約簡后低維空間中任意兩點間的距離應該與它們在原高維空間中的距離相同。
MDS的求解:通過適當定義准則函數來體現在低位空間中對高維距離的重建誤差,對准則函數用梯度下降法求解,對於某些特殊的距離可以推導出解析解法。
MDS的目標是在降維的過程中將數據的dissimilarity(差異性)保持下來,也可以理解降維讓高維空間中的距離關系與低維空間中距離關系保持不變。
測定:測地距離

Isomap算法是全局的,它要找到所有樣本全局的最優解,當數據量很大時或者樣本維度很高時,計算量非常大。因此更常用的算法是LLE(局部線性嵌入),LLE放棄所有樣本全局最優的降維,只是通過保證局部最優來降維。
-2.局部線性嵌入(LLE)
-
顯式利用“局部線性”的假設,流形學習的局部區域具有歐式空間的性質,那么在LLE中就假設某個點xi坐標可以由它周圍的一些點的坐標線性組合求出。
-
保持局部鄰域幾何結構-重構權重。
-
權重對樣本集的幾何變幻具有不變性。
前提假設-
采樣數據所在的低維流形在局部是線性的。
-
每個采樣點均可以利用其近鄰樣本進行線性重構表示。
-
學習目標
1.低維空間中保持每個鄰域中的重構權值不變。
2.在嵌入映射為局部線性的條件下,最小化重構誤差。
3.最終形式化為特征值分解問題。
算法過程:
算法的主要步驟分為三步:
(1)尋找每個樣本點的k個近鄰點;
(2)由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣;
(3)由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值。
LLE算法總結:
主要優點:
1)可以學習任意維的局部線性的低維流形。
2)算法歸結為稀疏矩陣特征分解,計算復雜度相對較小,實現容易。
3)可以處理非線性的數據,能進行非線性降維。
主要缺點:
1)算法所學習的流形只能是不閉合的,且樣本集是稠密的。
2)算法對最近鄰樣本數的選擇敏感,不同的最近鄰數對最后的降維結果有很大影響。
