理解協方差矩陣


1. 方差和協方差的定義

在統計學中,方差是用來度量單個隨機變量的離散程度,而協方差則一般用來刻畫兩個隨機變量的相似程度,其中,方差的計算公式為
[公式] 
其中,[公式] 表示樣本量,符號 [公式] 表示觀測樣本的均值。

協方差的計算公式被定義為:

 

 

 在公式中,符號 [公式] 分別表示兩個隨機變量所對應的觀測樣本均值,據此,我們發現:方差 [公式]可視作隨機變量 [公式] 關於其自身的協方差 [公式] .

2. 從方差/協方差到協方差矩陣

根據方差的定義,給定 [公式] 個隨機變量 [公式] ,則這些隨機變量的方差為

[公式]

其中, [公式] 表示隨機變量 [公式] 中的第 [公式] 個觀測樣本, [公式] 表示樣本量,每個隨機變量所對應的觀測樣本數量均為 [公式] 。

 

其中,為方便書寫, [公式] 表示隨機變量 [公式] 中的第 [公式] 個觀測樣本, [公式] 表示樣本量,每個隨機變量所對應的觀測樣本數量均為 [公式] 。

 

 

 

因此,協方差矩陣為

[公式]

其中,對角線上的元素為各個隨機變量的方差,非對角線上的元素為兩兩隨機變量之間的協方差,根據協方差的定義,我們可以認定:矩陣 [公式] 為對稱矩陣(symmetric matrix),其大小為 [公式]

為了便於理解,我們先從兩個變量的協方差矩陣來理解:

2.1 兩個變量的協方差矩陣

假設我們有 4 個樣本,每個樣本都有兩個變量,也就是兩個特征,它們表示如下: [公式], [公式] , [公式] , [公式]

 

用一個矩陣表示為:

 

 

 

 現在,我們用兩個變量空間[公式] ,[公式] 來表示這兩個特征:

 

 

 由於協方差反應的是兩個變量之間的相關性,因此,協方差矩陣表示的是所有變量之間兩兩相關的關系,具體來講,一個包含兩個特征的矩陣,其協方差矩陣應該有[公式] 大小:

 

接下來,就來逐一計算 [公式] 的值。 首先,我們需要先計算出 [公式] , [公式] 兩個特征空間的平均值: [公式] , [公式] 。 然后,根據協方差的數學定義,計算協方差矩陣的每個元素:

 

 

 

 

 

 

 

 

 

 

 

 

所以協方差矩陣:

[公式]

 

我們已經可以從中總結出協方差矩陣 [公式] 的「計算公式」:

 

 2.2 多個變量的協方差矩陣

接下來,就用上面推出的計算協方差矩陣的「計算公式」。 假設我們有三個樣本: [公式] , [公式] , [公式] 。 同理我們將它們表示成樣本矩陣:

[公式]

按照上面給出的計算套路,我們需要先計算出矩陣每一列的均值,從左到右分別為:2、3、1.67、3.33。 然后按照上面講到的公式,計算矩陣每個元素的值,對了,四個變量的協方差矩陣,大小為 [公式] :

[公式]

....

3. 理解協方差矩陣

這是一個三維的例子,跟上面的例子差不多,只不過換了一種表達方式:

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM