名字解析:
樣本:比如我們想要測量全國人的平均身高。但是我們無法收集到全國所有人的身高數據,所以我們從全國隨機抽取n個人進行測量。這n個人就稱為樣本。樣本是全國人口的一個子集。
參數:我們需要測量的身高數據就是參數。
有一些值可以表示樣本參數的特征。
均值:
表示樣本的平均特征。但是無法表示樣本之間的差異,所以就有了。
方差:
以及
標准差:
協方差用於表示兩個樣本參數之間的相似度
協方差:
。從公式上來看,協方差的結果是先求"參數x”與"參數x的均值"之間的之間的差,以及"參數y"和"參數y的均值"之間的差,表達了兩個參數xy之間的差異程度。
協方差矩陣:若觀測的一個系統有3個參數xyz,而協方差只能計算兩個參數之間的差異程度,可以用協方差矩陣來表達參數兩兩之間的差異程度。
特征值與特征向量相關
向量與矩陣:向量表示空間中的一個點,向量也可以看做從原點出發的一個矢量。矩陣是一個變換,當矩陣*向量時,矩陣可以看做將空間中的一個點變換到另外一個位置。多個參數排列在一起也可以看做一個向量。
特征向量特征值:
如圖所示,當矩陣(變換)作用於一個特征向量是,只是將向量(空間中的矢量)的長度拉伸而已,而方向並沒有改變。特征值表示特征向量拉伸的比例
PCA(主成分分析)
PCA是主成分分析。例如對於一個未知的系統,我們假設它有n個參數。我們想要求出那些參數最重要,而把不重要的參數給抹掉,從而降低參數向量的維數。PCA的問題其實是一個基的變換,使得變換后的數據有着最大的方差。
1.假設有2個參數xy,我們通過觀察n次,已經得到了n個xy的值。
2.求出xy的協方差矩陣COVMatrix
3.求出COVMatrix的特征向量eigenvectors以及特征值eigenvalues
4.若特征值大,則說明參數空間中的點更接近該特征值對應的特征向量。如圖3.2
5.將所求出的特征向量組合成特征向量矩陣如上圖。
6.用特征向量矩陣的轉置左乘原始參數矩陣的轉置 = (原始數據在以特征向量為基的坐標系下的坐標)。如上圖,這個finaldata就是pca后的數據。如果對坐標在各種坐標下的轉換有疑問,請看我的另一篇博文 http://www.cnblogs.com/tclikang/archive/2012/12/05/2803506.html。
7.若FeatureVector不是全部的特征向量,則成為主成分,省去的其余成分都是非主要成分.
PCA背后的思想:
如圖所示:上面三幅圖中每個點的位置都有兩個參數r1和r2,想要記錄下點的值就必須知道兩個參數。而最右邊的圖r1和r2有明顯的關系,當知道r1的時候,就可以利用公式得出r2的值,也就是說在最右邊的圖中,我們只需要知道一個參數r1就能夠確定點的位置了,這就是參數降維。這就是PCA背后的思想。在該例中,我們的母的就是使用PCA可以找出這個最能擬合所有點的直線。