1. 方差和協方差的定義
在統計學中,方差是用來度量單個隨機變量的離散程度,而協方差則一般用來刻畫兩個隨機變量的相似程度,其中,方差的計算公式為
其中,
表示樣本量,符號
表示觀測樣本的均值。
協方差的計算公式被定義為:

在公式中,符號
分別表示兩個隨機變量所對應的觀測樣本均值,據此,我們發現:方差
可視作隨機變量
關於其自身的協方差
.
2. 從方差/協方差到協方差矩陣
根據方差的定義,給定
個隨機變量
,則這些隨機變量的方差為
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNzaWdtYSUyOCU3QnhfayU3RCUyQyU3QnhfayU3RCUyOSUzRCU1Q2ZyYWMlN0IxJTdEJTdCbi0xJTdEJTVDc3VtXyU3QmklM0QxJTdEJTVFbiU1Q2xlZnQlMjh4XyU3QmtpJTdELSU1Q2JhciU3QnglN0RfayU1Q3JpZ2h0JTI5JTVFMiUyQ2slM0QxJTJDMiUyQy4uLiUyQ2Q=.png)
其中,
表示隨機變量
中的第
個觀測樣本,
表示樣本量,每個隨機變量所對應的觀測樣本數量均為
。
其中,為方便書寫,
表示隨機變量
中的第
個觀測樣本,
表示樣本量,每個隨機變量所對應的觀測樣本數量均為
。

因此,協方差矩陣為
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNTaWdtYSUzRCU1Q2xlZnQlNUIrJTVDYmVnaW4lN0JhcnJheSU3RCU3QmNjYyU3RCU1Q3NpZ21hJTI4JTdCeF8xJTdEJTJDJTdCeF8xJTdEJTI5KyUyNislNUNjZG90cyslMjYrJTVDc2lnbWElNUNsZWZ0JTI4eF8xJTJDeF9kJTVDcmlnaHQlMjkrJTVDJTVDKyU1Q3Zkb3RzKyUyNislNUNkZG90cyslMjYrJTVDdmRvdHMrJTVDJTVDKyU1Q3NpZ21hJTVDbGVmdCUyOHhfZCUyQ3hfMSU1Q3JpZ2h0JTI5KyUyNislNUNjZG90cyslMjYrJTVDc2lnbWElMjglN0J4X2QlN0QlMkMlN0J4X2QlN0QlMjkrJTVDJTVDKyU1Q2VuZCU3QmFycmF5JTdEKyU1Q3JpZ2h0JTVEJTVDaW4lNUNtYXRoYmIlN0JSJTdEJTVFJTdCZCU1Q3RpbWVzK2QlN0Q=.png)
其中,對角線上的元素為各個隨機變量的方差,非對角線上的元素為兩兩隨機變量之間的協方差,根據協方差的定義,我們可以認定:矩陣
為對稱矩陣(symmetric matrix),其大小為
。
為了便於理解,我們先從兩個變量的協方差矩陣來理解:
2.1 兩個變量的協方差矩陣
假設我們有 4 個樣本,每個樣本都有兩個變量,也就是兩個特征,它們表示如下:
,
,
, ![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD14XzQlM0QlMjg1JTJDMiUyOQ==.png)
用一個矩陣表示為:

現在,我們用兩個變量空間
,
來表示這兩個特征:

由於協方差反應的是兩個變量之間的相關性,因此,協方差矩陣表示的是所有變量之間兩兩相關的關系,具體來講,一個包含兩個特征的矩陣,其協方差矩陣應該有
大小:
接下來,就來逐一計算
的值。 首先,我們需要先計算出
,
兩個特征空間的平均值:
,
。 然后,根據協方差的數學定義,計算協方差矩陣的每個元素:




所以協方差矩陣:
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1Db3YlMjhaJTI5JTNEJTVDYmVnaW4lN0JibWF0cml4JTdEKzIuOTE2NyslMjYrLTAuMzMzMyslNUMlNUMrLTAuMzMzMyslMjYrNC4wMDArJTVDZW5kJTdCYm1hdHJpeCU3RA==.png)
我們已經可以從中總結出協方差矩陣
的「計算公式」:

2.2 多個變量的協方差矩陣
接下來,就用上面推出的計算協方差矩陣的「計算公式」。 假設我們有三個樣本:
,
,
。 同理我們將它們表示成樣本矩陣:
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1aJTNEJTVDYmVnaW4lN0JibWF0cml4JTdEKzErJTI2KzIrJTI2KzMrJTI2KzQrJTVDJTVDKzMrJTI2KzQrJTI2KzErJTI2KzIrJTVDJTVDKzIrJTI2KzMrJTI2KzErJTI2KzQrKyU1Q2VuZCU3QmJtYXRyaXglN0QlRTIlODAlOEI=.png)
按照上面給出的計算套路,我們需要先計算出矩陣每一列的均值,從左到右分別為:2、3、1.67、3.33。 然后按照上面講到的公式,計算矩陣每個元素的值,對了,四個變量的協方差矩陣,大小為
:
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNTaWdtYV8lN0IxMSU3RCUzRCU1Q2ZyYWMlN0IlMjglRTclQUMlQUMxJUU1JTg4JTk3LSVFNyVBQyVBQzElRTUlODglOTclRTclOUElODQlRTUlOUQlODclRTUlODAlQkMlMjklNUVUJTI4JUU3JUFDJUFDMSVFNSU4OCU5Ny0lRTclQUMlQUMxJUU1JTg4JTk3JUU3JTlBJTg0JUU1JTlEJTg3JUU1JTgwJUJDJTI5JTdEJTdCJUU2JUEwJUI3JUU2JTlDJUFDJUU2JTk1JUIwLTElN0QlM0QlNUNmcmFjJTdCJTI4LTElMkMxJTJDMCUyOSU1RVQlMjgtMSUyQzElMkMwJTI5JTdEJTdCMiU3RCUzRDE=.png)
....
3. 理解協方差矩陣
這是一個三維的例子,跟上面的例子差不多,只不過換了一種表達方式:

