數理統計初步---從協方差到PCA算法步驟詳解

本文轉載自查看原文 2012-11-26 21:30 8168 數理統計相關/ PCA

名字解析：

樣本：比如我們想要測量全國人的平均身高。但是我們無法收集到全國所有人的身高數據，所以我們從全國隨機抽取n個人進行測量。這n個人就稱為樣本。樣本是全國人口的一個子集。

參數：我們需要測量的身高數據就是參數。

有一些值可以表示樣本參數的特征。

均值：

表示樣本的平均特征。但是無法表示樣本之間的差異，所以就有了。

方差：

以及

標准差：

協方差用於表示兩個樣本參數之間的相似度

協方差：

。從公式上來看，協方差的結果是先求"參數x”與"參數x的均值"之間的之間的差，以及"參數y"和"參數y的均值"之間的差，表達了兩個參數xy之間的差異程度。

協方差矩陣：若觀測的一個系統有3個參數xyz，而協方差只能計算兩個參數之間的差異程度，可以用協方差矩陣來表達參數兩兩之間的差異程度。

特征值與特征向量相關

向量與矩陣：向量表示空間中的一個點，向量也可以看做從原點出發的一個矢量。矩陣是一個變換，當矩陣*向量時，矩陣可以看做將空間中的一個點變換到另外一個位置。多個參數排列在一起也可以看做一個向量。

特征向量特征值：

如圖所示，當矩陣（變換）作用於一個特征向量是，只是將向量（空間中的矢量）的長度拉伸而已，而方向並沒有改變。特征值表示特征向量拉伸的比例

PCA（主成分分析）

PCA是主成分分析。例如對於一個未知的系統，我們假設它有n個參數。我們想要求出那些參數最重要，而把不重要的參數給抹掉，從而降低參數向量的維數。PCA的問題其實是一個基的變換，使得變換后的數據有着最大的方差。

1.假設有2個參數xy，我們通過觀察n次，已經得到了n個xy的值。

2.求出xy的協方差矩陣COVMatrix

3.求出COVMatrix的特征向量eigenvectors以及特征值eigenvalues

4.若特征值大，則說明參數空間中的點更接近該特征值對應的特征向量。如圖3.2

5.將所求出的特征向量組合成特征向量矩陣如上圖。

6.用特征向量矩陣的轉置左乘原始參數矩陣的轉置 = （原始數據在以特征向量為基的坐標系下的坐標）。如上圖，這個finaldata就是pca后的數據。如果對坐標在各種坐標下的轉換有疑問，請看我的另一篇博文 http://www.cnblogs.com/tclikang/archive/2012/12/05/2803506.html。

7.若FeatureVector不是全部的特征向量，則成為主成分，省去的其余成分都是非主要成分.

PCA背后的思想：

如圖所示：上面三幅圖中每個點的位置都有兩個參數r1和r2，想要記錄下點的值就必須知道兩個參數。而最右邊的圖r1和r2有明顯的關系，當知道r1的時候，就可以利用公式得出r2的值，也就是說在最右邊的圖中，我們只需要知道一個參數r1就能夠確定點的位置了，這就是參數降維。這就是PCA背后的思想。在該例中，我們的母的就是使用PCA可以找出這個最能擬合所有點的直線。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數理統計（一）——用Python進行方差分析數理統計知識總結高等數理統計知識點數理統計知識點歸納 MATLAB中的概率論與數理統計概率論與數理統計，筆記【數理統計基礎】 02 - 統計量和三大分布概率統計----均值，方差，協方差，相關系數，協方差矩陣均值、方差、標准差及協方差、協方差矩陣詳解概率論與數理統計習題題目及答案（總）