成分分析PCA以及特征值和特征向量的意義


https://blog.csdn.net/weixin_38314865/article/details/84190175

定義:
主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主成分,是重新構造出來的k維特征,而不是簡單地從n維特征中去除其余n-k維特征。
簡單解釋:

具體的,假如我們的數據集是n維的,共有m個數據。我們希望將這m個數據的維度從n維降到k維,希望這m個k維的數據集盡可能的代表原始數據集。我們知道數據從n維降到k維肯定會有損失,但是我們希望損失盡可能的小。那么如何讓這k維的數據盡可能表示原來的數據呢?

我們先看看最簡單的情況,也就是n=2,k=1,也就是將數據從二維降維到一維。數據如下圖。我們希望找到某一個維度方向,它可以代表這兩個維度的數據。圖中列了兩個向量方向,u1和u2,那么哪個向量可以更好的代表原始數據集呢?從直觀上也可以看出,u1比u2好,因為數據在這個方向上投影后的樣本點之間方差最大。

引用《線性代數的幾何意義》的描述:“矩陣乘法對應了一個變換,是把任意一個向量變成另一個方向或長度都大多不同的新向量。在這個變換的過程中,原向量主要發生旋轉、伸縮的變化。如果矩陣對某一個向量或某些向量只發生伸縮變換,不對這些向量產生旋轉的效果,那么這些向量就稱為這個矩陣的特征向量,伸縮的比例就是特征值。

經過數學上的推導的,我們就可以知道,特征值對應的特征向量就是理想中想取得正確的坐標軸,而特征值就等於數據在旋轉之后的坐標上對應維度上的方差。

也就是說,直接求出矩陣A的特征向量得出對應的特征向量。我們就能找到旋轉后正確的坐標軸。這個就是特征值和特征向量的一個實際應用:“得出使數據在各個維度區分度達到最大的坐標軸。”

所以,在數據挖掘中,就會直接用特征值來描述對應特征向量方向上包含的信息量,而某一特征值除以所有特征值的和的值就為:該特征向量的方差貢獻率(方差貢獻率代表了該維度下蘊含的信息量的比例)。

通常經過特征向量變換下的數據被稱為變量的主成分,當前m個主成分累計的方差貢獻率達到一個較高的百分數(如85%以上)的話,就保留着這m個主成分的數據。實現了對數據進行降維的目的。整個主成分分析的算法原理也就是這個。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM