在做數字圖像處理的時候,特別是PCA降維的時候,很多情況下要遇到協方差矩陣,其實一直糊里糊塗的不知道到底是個什么東西,
以下是我收集的網上資料做的整理和自己的一些理解。
統計學的基本概念
學過概率統計的孩子都知道,統計里最基本的概念就是樣本的均值,方差,或者再加個標准差。首先我們給你一個含有n個樣本的集合,依次給出這些概念的公式描述,這些高中學過數學的孩子都應該知道吧,一帶而過。
均值:

方差:

均值方差的意義我就不多說了,均值就是描述樣本總體水品的,班級平均分你總歸明白的吧。
方差呢就是描述樣本穩定性的,比如你的成績,一會兒全班第一,一會兒不及格,這就是方差很大。張三總是在班級前十,但也沒當過第一,這方差就比較小。
那么協方差到底是做什么用的呢?
我們一直在討論一個隨機變量的情況,一個隨機變量的均值,一個隨機變量的方差,當涉及到兩個隨機變量的時候,有時候我們要判定他們兩個的相關性,協方差的意義就在於此。
我們再回頭看方差的定義:

這是描述的一個隨機變量,
然后我們看看兩個隨機變量X,Y,協方差的定義如下:

明白了吧,協方差在描述兩個隨機變量之間的相關度。
基於以上理論,我們明白了協方差的意義。那么協方差矩陣又是做什么的呢?想象一下,兩個隨機變量X,Y我們可以用協方差表示,那么10個,20個,n個呢。協方差矩陣就產生了。定義n維隨機變量Xn=[X1,X2,X3,.....Xn-1,Xn];(其實相當於n個隨機變量的集合)
我們用協方差矩陣表示他們互相之間的協方差:

(式中Un表示Xn的均值)
明顯這是個對稱矩陣,第i行j列,或者j行i列的值,表示Xi與Xj的協方差。
好了,最后,我覺得理解協方差矩陣的關鍵點在於理解多維隨機變量,不同維度之間的協方差,對應起來就是協方差矩陣的元素。
