主成分分析(PCA)核心思想


參考鏈接:http://pinkyjie.com/2011/02/24/covariance-pca/

PCA的本質其實就是對角化協方差矩陣。

PCA就是將高維的數據通過線性變換投影到低維空間上去,但這個投影可不是隨便投投,要遵循一個指導思想,那就是:找出最能夠代表原始數據的投影方法

“最能代表原始數據”希望降維后的數據不能失真,也就是說,被PCA降掉的那些維度只能是那些噪聲或是冗余的數據。

1:冗余,就是去除線性相關的向量(緯度),因為可以被其他向量代表,這部分信息量是多余的。

2:噪聲,就是去除較小特征值對應的特征向量,

因為特征值的大小就反映了變換后在特征向量方向上變換的幅度,幅度越大,說明這個方向上的元素差異也越大,換句話說這個方向上的元素更分散。

3:實際上又回到了對角化,尋找極大線性無關組,然后保留較大的特征值,去除較小特征值,組成一個投影矩陣,

  對原始樣本矩陣進行投影,得到降維后的新樣本矩陣。

  協方差矩陣,能同時表現不同維度間的相關性以及各個維度上的方差

  協方差矩陣度量的是維度與維度之間的關系,而非樣本與樣本之間。

4:協方差矩陣的主對角線上的元素是各個維度上的方差(即能量),其他元素是兩兩維度間的協方差(即相關性)。我們要的東西協方差矩陣都有了,先來看“降噪”,讓保留下的不同維度間的相關性盡可能小,也就是說讓協方差矩陣中非對角線元素都基本為零。達到這個目的的方式自然不用說,線代中講的很明確——矩陣對角化。而對角化后得到的矩陣,其對角線上是協方差矩陣的特征值,它還有兩個身份:首先,它還是各個維度上的新方差;其次,它是各個維度本身應該擁有的能量(能量的概念伴隨特征值而來)。這也就是我們為何在前面稱“方差”為“能量”的原因。通過對角化后,剩余維度間的相關性已經減到最弱,已經不會再受“噪聲”的影響了,故此時擁有的能量應該比先前大了。看完了“降噪”,我們的“去冗余”還沒完呢。對角化后的協方差矩陣,對角線上較小的新方差對應的就是那些該去掉的維度。所以我們只取那些含有較大能量(特征值)的維度,其余的就舍掉即可。

除了PCA,SVD用的比較多,

矩陣奇異值分解(SVD)及其應用

 https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM