數理統計初步---從協方差到PCA算法步驟詳解


名字解析:

樣本:比如我們想要測量全國人的平均身高。但是我們無法收集到全國所有人的身高數據,所以我們從全國隨機抽取n個人進行測量。這n個人就稱為樣本。樣本是全國人口的一個子集。

參數:我們需要測量的身高數據就是參數。

有一些值可以表示樣本參數的特征。

均值

表示樣本的平均特征。但是無法表示樣本之間的差異,所以就有了。

方差

以及

標准差

協方差用於表示兩個樣本參數之間的相似度

協方差

。從公式上來看,協方差的結果是先求"參數x”與"參數x的均值"之間的之間的差,以及"參數y"和"參數y的均值"之間的差,表達了兩個參數xy之間的差異程度。

 

協方差矩陣:若觀測的一個系統有3個參數xyz,而協方差只能計算兩個參數之間的差異程度,可以用協方差矩陣來表達參數兩兩之間的差異程度。

特征值與特征向量相關

向量與矩陣:向量表示空間中的一個點,向量也可以看做從原點出發的一個矢量。矩陣是一個變換,當矩陣*向量時,矩陣可以看做將空間中的一個點變換到另外一個位置。多個參數排列在一起也可以看做一個向量。

特征向量特征值

如圖所示,當矩陣(變換)作用於一個特征向量是,只是將向量(空間中的矢量)的長度拉伸而已,而方向並沒有改變。特征值表示特征向量拉伸的比例

PCA(主成分分析)

PCA是主成分分析。例如對於一個未知的系統,我們假設它有n個參數。我們想要求出那些參數最重要,而把不重要的參數給抹掉,從而降低參數向量的維數。PCA的問題其實是一個基的變換,使得變換后的數據有着最大的方差。

1.假設有2個參數xy,我們通過觀察n次,已經得到了n個xy的值。

2.求出xy的協方差矩陣COVMatrix

 

3.求出COVMatrix的特征向量eigenvectors以及特征值eigenvalues

4.若特征值大,則說明參數空間中的點更接近該特征值對應的特征向量。如圖3.2

5.將所求出的特征向量組合成特征向量矩陣如上圖。

6.用特征向量矩陣的轉置左乘原始參數矩陣的轉置 = (原始數據在以特征向量為基的坐標系下的坐標)。如上圖,這個finaldata就是pca后的數據。如果對坐標在各種坐標下的轉換有疑問,請看我的另一篇博文 http://www.cnblogs.com/tclikang/archive/2012/12/05/2803506.html

7.若FeatureVector不是全部的特征向量,則成為主成分,省去的其余成分都是非主要成分.

PCA背后的思想

如圖所示:上面三幅圖中每個點的位置都有兩個參數r1和r2,想要記錄下點的值就必須知道兩個參數。而最右邊的圖r1和r2有明顯的關系,當知道r1的時候,就可以利用公式得出r2的值,也就是說在最右邊的圖中,我們只需要知道一個參數r1就能夠確定點的位置了,這就是參數降維。這就是PCA背后的思想。在該例中,我們的母的就是使用PCA可以找出這個最能擬合所有點的直線。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM