協方差矩陣在統計學和機器學習中隨處可見,一般而言,可視作方差和協方差兩部分組成,即方差構成了對角線上的元素,協方差構成了非對角線上的元素。本文旨在從幾何角度介紹我們所熟知的協方差矩陣。
文章結構
- 方差和協方差的定義
- 從方差/協方差到協方差矩陣
- 多元正態分布與線性變換
- 協方差矩陣的特征值分解
1. 方差和協方差的定義
在統計學中,方差是用來度量單個隨機變量的離散程度,而協方差則一般用來刻畫兩個隨機變量的相似程度,其中,方差的計算公式為
![]()
其中,表示樣本量,符號
表示觀測樣本的均值,這個定義在初中階段就已經開始接觸了。
在此基礎上,協方差的計算公式被定義為
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNzaWdtYSU1Q2xlZnQlMjh4JTJDeSU1Q3JpZ2h0JTI5JTNEJTVDZnJhYyU3QjElN0QlN0JuLTElN0QlNUNzdW1fJTdCaSUzRDElN0QlNUUlN0JuJTdEJTVDbGVmdCUyOHhfaS0lNUNiYXIlN0J4JTdEJTVDcmlnaHQlMjklNUNsZWZ0JTI4eV9pLSU1Q2JhciU3QnklN0QlNUNyaWdodCUyOQ==.png)
在公式中,符號
分別表示兩個隨機變量所對應的觀測樣本均值,據此,我們發現:方差
可視作隨機變量
關於其自身的協方差
.
2. 從方差/協方差到協方差矩陣
根據方差的定義,給定
個隨機變量
,則這些隨機變量的方差為
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNzaWdtYSUyOCU3QnhfayU3RCUyQyU3QnhfayU3RCUyOSUzRCU1Q2ZyYWMlN0IxJTdEJTdCbi0xJTdEJTVDc3VtXyU3QmklM0QxJTdEJTVFbiU1Q2xlZnQlMjh4XyU3QmtpJTdELSU1Q2JhciU3QnglN0RfayU1Q3JpZ2h0JTI5JTVFMiUyQ2slM0QxJTJDMiUyQy4uLiUyQ2Q=.png)
其中,為方便書寫,
表示隨機變量
中的第
個觀測樣本,
表示樣本量,每個隨機變量所對應的觀測樣本數量均為
。
對於這些隨機變量,我們還可以根據協方差的定義,求出兩兩之間的協方差,即
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNzaWdtYSU1Q2xlZnQlMjh4X20lMkN4X2slNUNyaWdodCUyOSUzRCU1Q2ZyYWMlN0IxJTdEJTdCbi0xJTdEJTVDc3VtXyU3QmklM0QxJTdEJTVFbiU1Q2xlZnQlMjh4XyU3Qm1pJTdELSU1Q2JhciU3QnglN0RfbSU1Q3JpZ2h0JTI5JTVDbGVmdCUyOHhfJTdCa2klN0QtJTVDYmFyJTdCeCU3RF9rJTVDcmlnaHQlMjk=.png)
因此,協方差矩陣為
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNTaWdtYSUzRCU1Q2xlZnQlNUIrJTVDYmVnaW4lN0JhcnJheSU3RCU3QmNjYyU3RCU1Q3NpZ21hJTI4JTdCeF8xJTdEJTJDJTdCeF8xJTdEJTI5KyUyNislNUNjZG90cyslMjYrJTVDc2lnbWElNUNsZWZ0JTI4eF8xJTJDeF9kJTVDcmlnaHQlMjkrJTVDJTVDKyU1Q3Zkb3RzKyUyNislNUNkZG90cyslMjYrJTVDdmRvdHMrJTVDJTVDKyU1Q3NpZ21hJTVDbGVmdCUyOHhfZCUyQ3hfMSU1Q3JpZ2h0JTI5KyUyNislNUNjZG90cyslMjYrJTVDc2lnbWElMjglN0J4X2QlN0QlMkMlN0J4X2QlN0QlMjkrJTVDJTVDKyU1Q2VuZCU3QmFycmF5JTdEKyU1Q3JpZ2h0JTVEJTVDaW4lNUNtYXRoYmIlN0JSJTdEJTVFJTdCZCU1Q3RpbWVzK2QlN0Q=.png)
其中,對角線上的元素為各個隨機變量的方差,非對角線上的元素為兩兩隨機變量之間的協方差,根據協方差的定義,我們可以認定:矩陣
為對稱矩陣(symmetric matrix),其大小為
。
3. 多元正態分布與線性變換
假設一個向量服從均值向量為
、協方差矩陣為
的多元正態分布(multi-variate Gaussian distribution),則
![]()
令該分布的均值向量為
,由於指數項外面的系數
通常作為常數,故可將多元正態分布簡化為
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1wJTVDbGVmdCUyOCU1Q2JvbGRzeW1ib2wlN0J4JTdEJTVDcmlnaHQlMjklNUNwcm9wdG8lNUNleHAlNUNsZWZ0JTI4LSU1Q2ZyYWMlN0IxJTdEJTdCMiU3RCU1Q2JvbGRzeW1ib2wlN0J4JTdEJTVFVCU1Q1NpZ21hJTVFJTdCLTElN0QlNUNib2xkc3ltYm9sJTdCeCU3RCU1Q3JpZ2h0JTI5.png)
再令
,包含兩個隨機變量
和
,則協方差矩陣可寫成如下形式:
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNTaWdtYSUzRCU1Q2xlZnQlNUIrJTVDYmVnaW4lN0JhcnJheSU3RCU3QmNjJTdEJTVDc2lnbWElMjh5JTJDeSUyOSslMjYrJTVDc2lnbWElNUNsZWZ0JTI4eSUyQ3olNUNyaWdodCUyOSslNUMlNUMrJTVDc2lnbWElNUNsZWZ0JTI4eiUyQ3klNUNyaWdodCUyOSslMjYrJTVDc2lnbWElMjh6JTJDeiUyOSslNUMlNUMrJTVDZW5kJTdCYXJyYXklN0QrJTVDcmlnaHQlNUQlNUNpbiU1Q21hdGhiYiU3QlIlN0QlNUUlN0IyJTVDdGltZXMrMiU3RA==.png)
用單位矩陣(identity matrix)
作為協方差矩陣,隨機變量
和
的方差均為1,則生成如干個隨機數如圖1所示。
圖1 標准的二元正態分布
在生成的若干個隨機數中,每個點的似然為
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNtYXRoY2FsJTdCTCU3RCU1Q2xlZnQlMjglNUNib2xkc3ltYm9sJTdCeCU3RCU1Q3JpZ2h0JTI5JTVDcHJvcHRvJTVDZXhwJTVDbGVmdCUyOC0lNUNmcmFjJTdCMSU3RCU3QjIlN0QlNUNib2xkc3ltYm9sJTdCeCU3RCU1RVQlNUNib2xkc3ltYm9sJTdCeCU3RCU1Q3JpZ2h0JTI5.png)
對圖1中的所有點考慮一個線性變換(linear transformation):
,我們能夠得到圖2.
圖2 經過線性變換的二元正態分布,先將圖1的縱坐標壓縮0.5倍,再將所有點逆時針旋轉30°得到。
在線性變換中,矩陣
被稱為變換矩陣(transformation matrix),為了將圖1中的點經過線性變換得到我們想要的圖2,其實我們需要構造兩個矩陣:
- 尺度矩陣(scaling matrix):
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1TJTNEJTVDbGVmdCU1QislNUNiZWdpbiU3QmFycmF5JTdEJTdCY2MlN0Qrc195KyUyNiswKyU1QyU1QyswKyUyNitzX3orJTVDJTVDKyU1Q2VuZCU3QmFycmF5JTdEKyU1Q3JpZ2h0JTVE.png)
- 旋轉矩陣(rotation matrix)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1SJTNEJTVDbGVmdCU1QislNUNiZWdpbiU3QmFycmF5JTdEJTdCY2MlN0QrJTVDY29zJTI4JTVDdGhldGElMjkrJTI2Ky0lNUNzaW4lMjglNUN0aGV0YSUyOSslNUMlNUMrJTVDc2luJTI4JTVDdGhldGElMjkrJTI2KyU1Q2NvcyUyOCU1Q3RoZXRhJTI5KyU1QyU1QyslNUNlbmQlN0JhcnJheSU3RCslNUNyaWdodCU1RA==.png)
其中,
為順時針旋轉的度數。
變換矩陣、尺度矩陣和旋轉矩陣三者的關系式:
![]()
在這個例子中,尺度矩陣為
,旋轉矩陣為 ![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1SJTNEJTVDbGVmdCU1QislNUNiZWdpbiU3QmFycmF5JTdEJTdCY2MlN0QrJTVDY29zJTI4LSU1Q2ZyYWMlN0IlNUNwaSU3RCU3QjYlN0QlMjkrJTI2Ky0lNUNzaW4lMjgtJTVDZnJhYyU3QiU1Q3BpJTdEJTdCNiU3RCUyOSslNUMlNUMrJTVDc2luJTI4LSU1Q2ZyYWMlN0IlNUNwaSU3RCU3QjYlN0QlMjkrJTI2KyU1Q2NvcyUyOC0lNUNmcmFjJTdCJTVDcGklN0QlN0I2JTdEJTI5KyU1QyU1QyslNUNlbmQlN0JhcnJheSU3RCslNUNyaWdodCU1RA==.png)
,故變換矩陣為
.
另外,需要考慮的是,經過了線性變換,
的分布是什么樣子呢?
將
帶入前面給出的似然
,有
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNtYXRoY2FsJTdCTCU3RCU1Q2xlZnQlMjglNUNib2xkc3ltYm9sJTdCdCU3RCU1Q3JpZ2h0JTI5JTVDcHJvcHRvJTVDZXhwJTVDbGVmdCUyOC0lNUNmcmFjJTdCMSU3RCU3QjIlN0QlNUNsZWZ0JTI4QSU1RSU3Qi0xJTdEJTVDYm9sZHN5bWJvbCU3QnQlN0QlNUNyaWdodCUyOSU1RVQlNUNsZWZ0JTI4QSU1RSU3Qi0xJTdEJTVDYm9sZHN5bWJvbCU3QnQlN0QlNUNyaWdodCUyOSU1Q3JpZ2h0JTI5.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0QlNUNleHAlNUNsZWZ0JTI4LSU1Q2ZyYWMlN0IxJTdEJTdCMiU3RCU1Q2JvbGRzeW1ib2wlN0J0JTdEJTVFVCU1Q2xlZnQlMjhBQSU1RSU3QlQlN0QlNUNyaWdodCUyOSU1RSU3Qi0xJTdEJTVDYm9sZHN5bWJvbCU3QnQlN0QlNUNyaWdodCUyOQ==.png)
由此可以得到,多元正態分布的協方差矩陣為
.
4. 協方差矩陣的特征值分解
回到我們已經學過的線性代數內容,對於任意對稱矩陣,存在一個特征值分解(eigenvalue decomposition, EVD):
![]()
其中,的每一列都是相互正交的特征向量,且是單位向量,滿足
,
對角線上的元素是從大到小排列的特征值,非對角線上的元素均為0。
當然,這條公式在這里也可以很容易地寫成如下形式:
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNTaWdtYSUzRCU1Q2xlZnQlMjhVJTVDTGFtYmRhJTVFJTdCMSUyRjIlN0QlNUNyaWdodCUyOSU1Q2xlZnQlMjhVJTVDTGFtYmRhJTVFJTdCMSUyRjIlN0QlNUNyaWdodCUyOSU1RVQlM0RBQSU1RVQ=.png)
其中,
,因此,通俗地說,任意一個協方差矩陣都可以視為線性變換的結果。
在上面的例子中,特征向量構成的矩陣為
.
特征值構成的矩陣為
.
到這里,我們發現:多元正態分布的概率密度是由協方差矩陣的特征向量控制旋轉(rotation),特征值控制尺度(scale),除了協方差矩陣,均值向量會控制概率密度的位置,在圖1和圖2中,均值向量為
,因此,概率密度的中心位於坐標原點。

表示觀測樣本的均值,這個定義在初中階段就已經開始接觸了。
服從均值向量為
、協方差矩陣為
的每一列都是相互正交的特征向量,且是單位向量,滿足
,
對角線上的元素是從大到小排列的特征值,非對角線上的元素均為0。