淺談降維方法


在很多應用領域,例如模式識別,語義分析,文本分類等等,通常是高維的數據。在這種情況下,降維是一個有效的處理這些數據的方法。到目前為止,出現了很多的降維方法,可分為三大類,無監督、監督、半監督。監督的降維方法主要包括線性判別分析(LDA),邊緣Fisher分析(MFA),最大邊緣准則(MMC)。無監督的降維方法主要包括主成分分析(PCA),局部保持投影(LPP)等等。而半監督降維方法包括了半監督降維(SSDR)、半監督判別分析(SDA)。這篇文章我只談無監督降維方法。在我看來,隨着不斷發展,數據的規模越來越大,監督信息的獲取是一個問題,無監督才是最后的贏家。監督降維方法和半監督方法以后有時間再寫。

為什么要降維

 對於一個數據矩陣$X \in R^{n \times p}$,這里的$n$代表樣本數,$p$代表變量數,即維度,對於每個變量都是零均值的。在很多的數據中,維度$p$往往很高,例如在圖像數據中,我們都知道一個圖像就是一個矩陣,假設是一個方陣$m \times m$。我們把一個圖像的數據矩陣展開為一個行向量,這樣多幅圖像按行排列成了一個矩陣,$n$就代表共有多少幅圖像,而$p=m \times m$則代表圖像的維度。這樣的圖像數據維度是很高的,比如一個分辨率不高的圖像$256 \times 256$,展開成向量時,維度變成了65536維,這個維度是很嚇人的,而且這還只是一個分辨率較低的圖像。所以我們需要降維。

主成分分析(PCA)

主成分分析是降維方法中最流行的一個方法了。假定有一個數據矩陣$X \in R^{n \times p}$,我們希望找到一個投影矩陣,將$X$投影到低維空間,並且使得投影后的數據樣本間有最大方差,所謂最大方差是指各個樣本間能夠盡量分開。假設投影方向向量為$W \in R^{p \times r}$,對矩陣$X$做投影得到$XW=Y$,$Y \in R^{n \times r}$就是投影后的矩陣,這里的$r$為降維后數據的維度,$r<p$,於是達到了降維的功能,接下來我們來考慮怎么去選擇投影矩陣$W$,我們的目標函數是使得降維后矩陣$Y$的樣本間方差最大。於是得到以下優化問題:

$$\max \frac{w^{T}X^{T}Xw}{w^{T}w}$$

求解這個問題,相當於對矩陣$X^{T}X$求最大特征值,如果我們求解前$r$個特征值,這前$r$個特征值所對應的特征向量即構成了一個投影矩陣$W$. 主成分分析可以應用到特征臉問題。

局部保持投影(LPP)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM