來源:http://blog.travel.ifeng.com/article/15992868.html
主成分分析的經典圖像如下
![]() |
直觀的解釋就是,在長箭頭方向上,數據點要比短箭頭方向上分散。如果用長箭頭的方向來區分樣本點,基本上就能代表長短兩個方向。那么我們就可以用長箭頭作為分類、回歸或者聚類的標准。上面例子中,維度從2(長短兩個箭頭)降到了1(長箭頭)。
這里邊箭頭長短就是數據點在這個分量上的方差,設想一個數據點有很多維,我們就可以通過計算每一維的方差,然后從小到大排列這些方差,計算累計方差貢獻,就可以從大到小選擇方差大的維。例如對於8維的數據,使用前2維就能得到90%以上的方差,這樣的PCA效果就極好,同樣對於8維的數據,采用前4維僅能得到60%的方差,PCA效果就不太好(這句話中的數據就是個形象的對比,不必認真)。
下一個問題就是如何將原始的數據投影到新的坐標上。因為低維的坐標下,坐標值實際上是原坐標系中坐標值的線性組合(代數不愧是數學三大基礎之一,另外兩個是幾何和分析),因此需要得到變換矩陣的特征向量。這個通過簡單的運算就可以進行,計算出來這些線性組合,就完成了坐標投影。因為使用矩陣的冪乘可以依次得到特征向量,所以可以不用對矩陣進行特征值分解,這樣在矩陣很大的時候就可以降低運算的復雜度。
那么什么情況會導致變換矩陣很大呢?當然是拜核方法(Kernel Trick)所賜了。核方法能夠通過升維將非線性的數據變為線性,從而解決了部分的非線性問題。常見的核有多項式核、徑向基函數核、sigmoid核等等。數據的維度高了,變換矩陣自然就大了。
參考:
基於核主成分分析的特征提取方法,韋振中
基於核函數的主成分分析及應用,吳今培
一種解決大規模數據集問題的核主成分分析算法,史衛亞等
|