[轉]淺談PCA的適用范圍


線性代數主要講矩陣,矩陣就是線性變換,也就是把直線變成直線的幾何變換,包括過原點的旋轉、鏡射、伸縮、推移及其組合。特征向量是對一個線性變換很特殊的向量:只有他們在此變換下可保持方向不變,而對應的特征值就是該向量縮放的比例。最大特征值和對應的特征向量就意味着在該方向上方向不變且縮放比例能達到最大。注意到特征向量天然正交,否則他們在別的特征方向上會發生方向的改變。

在此基礎上再來理解PCA降維:樣本協方差陣是變量間的相關性度量,在高斯假設下它是協方差的充分統計量,根據對稱陣可正交分解,它的最大特征值所對應特征向量的方向,就是對數據正交變換后縮放比例最大的方向,這意味着該方向上信噪比最大,如此就使該數據的第一大方差落在第一個坐標上,依次類推。具體的推導,可以使用拉格朗日乘數法求解變換后數據的方差最小化問題得到。

以上我們易得PCA降維的適用范圍是:線性假設意味着變量量綱不同時要非常小心,反過來也說明為啥圖像識別該方法甚為有效;高斯假設意味着當樣本不符合指數族分布時就是白忙活,因為樣本協方差陣實際上只使用了均值和方差,對指數族分布這才是充分統計量(sufficient statistic)。此外還有主成分正交和信噪比很大兩個普遍假設。主成分正交的解釋是,既然PCA降維相當於找個向量讓數據在上面投影方差最大,而求解該優化問題后發現這個向量正是特征向量,而特征向量天然是正交的。信噪比很大是機器學習能夠work的理論基礎。

應當指出的是,PCA降維的出發點不是分類也不是聚類,它只是對原始數據的一種變換,可以用更少的維度保存最多的信息(數學語言即變換后的數據與原來數據的均方誤差最小化)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM