一. 流形學習的英文名為manifold learning。其主要思想是把一個高維的數據非線性映射到低維,該低維數據能夠反映高維數據的本質,當然有一個前提假設就是高維觀察數據存在流形結構,其優點是非參數,非線性,求解過程簡單。
二. 流形學習的可行性是因為:1.從認知心理學的角度來講心理學家認為人的認知過程是基於認知流形和拓撲連續性的;2.許多高維采用數據都是由少數幾個隱變量所決定的,所以可以用少數的低維數據來刻畫高維數據。
三. 流形學習所需的數學背景知識:微分流形,黎曼流形,微分幾何,切向量場,拓撲空間,光滑映射等。
四. 經典流形學習算法:
Isomap:等距映射。前提假設為低維空間中的歐式距離等於高維空間中的側地線距離,當然該算法具體實施時是高維空間中較近點之間的測地線距離用歐式距離代替,較遠點距離用測地線距離用最短路徑逼近。
LLE:局部線性嵌入。前提假設是數據所在的低維流形在局部是線性的,且每個采樣點均可以利用其近鄰樣本進行線性重構表示。
LE:拉普拉斯特征映射。前提假設是在高維中很近的點投影到低維空間中的象也應該離得很近。
HLLE:局部等距映射。前提假設是如果一個流形局部等距與歐式空間中的一個開集,那么由這個流形到開集的映射函數為一個線性函數,線性函數的二次混合偏導數為0,所以由hessian系數構成的二次型也為0.
LPP:局部保留投影。在LE算法的基礎上,假設一個從原空間到流形空間的映射矩陣P,然后通過某種方法求出P,最后得到了一個顯示的投影映射。
LTSA:局部坐標表示。其基本思想是流形的局部幾何先用切坐標表示,那么流形中的每一個點處的切空間可以和歐式空間中的一個開子集建立同構,也就是切映射。
MVU:局部等距。構造一個局部的稀疏歐式距離矩陣,同構保持距離來學習一個核矩陣。
Logmap:側地距離和方向。思想是已知流形空間中一點的坐標和方向,通過切平面找到法坐標,形成一個指數映射。
……
五.流形學習存在的問題:
抗干擾噪聲能力差,低維空間的維數不好確定,需要存在流形結構這一假設,采樣需要稠密采樣,測試數據的out-of-samples問題。
六.流形學習未來的發展方向:
提高魯棒性,可視化手段提高,低維空間維數的確定,與統計學習結合等。
七.參考文獻:
1.中科院計算所ppt,《流形學習專題》。
2.中科院自動化所計算機視覺課件ppt,《流形學習》。
3.雷迎科 (2011). 流形學習算法及其應用研究, 中國科學技術大學.
4.網上的瘋狂轉帖(沒真實作者來源),通俗易懂。也放一個轉帖:http://blog.csdn.net/zhulingchen/archive/2008/02/26/2123129.aspx.
5. 徐蓉, 姜峰, et al. (2006). "流形學習概述." 智能系統學報 1(1): 44-51.