1、協方差矩陣
- 協方差是衡量兩個隨機變量(同一樣本,不同分量)的相關程度。(方差描述的是一維變量)
- 隨機變量 之間的協方差可以表示為
- 根據已知的樣本值可以得到協方差的估計值如下(列向量相關):
- 可以進一步地簡化為:
- 協方差矩陣:
- 說明:
(1)協方差矩陣中的每一個元素是表示的隨機向量X的不同分量之間的協方差(不同維數的相關性,即列向量的相關性),是個對稱矩陣,而不是不同樣本之間的協方差,如元素Cij就是反映的隨機變量Xi, Xj的協方差。
(2)協方差是反映的變量之間的二階統計特性,如果隨機向量的不同分量之間的相關性很小,則所得的協方差矩陣幾乎是一個對角矩陣。對於一些特殊的應用場合,為了使隨機向量的長度較小,可以采用主成分分析的方法,使變換之后的變量的協方差矩陣完全是一個對角矩陣,之后就可以舍棄一些能量較小的分量了(對角線上的元素反映的是方差,也就是交流能量)。特別是在模式識別領域,當模式向量的維數過高時會影響識別系統的泛化性能,經常需要做這樣的處理。
(3)求協方差矩陣的matlab函數:cov
2、相關矩陣
- 相關系數:
著名統計學家卡爾·皮爾遜設計了統計指標——相關系數。相關系數是用以反映變量之間相關關系密切程度的統計指標。相關系數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;着重研究線性的單相關系數。
依據相關現象之間的不同特征,其統計指標的名稱有所不同。如將反映兩變量間線性相關關系的統計指標稱為相關系數(相關系數的平方稱為判定系數);將反映兩變量間曲線相關關系的統計指標稱為非線性相關系數、非線性判定系數;將反映多元線性相關關系的統計指標稱為復相關系數、復判定系數等。
相關系數用r表示,它的基本公式(formula)為:
- 相關系數的值介於–1與+1之間,即–1≤r≤+1。其性質如下:
當r>0時,表示兩變量正相關,r<0時,兩變量為負相關。
當|r|=1時,表示兩變量為完全線性相關,即為函數關系。
當r=0時,表示兩變量間無線性相關關系。
當0<|r|<1時,表示兩變量存在一定程度的線性相關。且|r|越接近1,兩變量間線性關系越密切;|r|越接近於0,表示兩變量的線性相關越弱。
一般可按三級划分:|r|<0.4為低度線性相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關。
- 相關矩陣也叫相關系數矩陣,是由矩陣各列間的相關系數構成的
- 也就是說,相關矩陣第i行第j列的元素是原矩陣第i列和第j列的相關系數
- 求取相關矩陣的matlab函數為:correoff
3、協方差矩陣和相關矩陣的關系
由二者的定義公式可知,經標准化的樣本數據的協方差矩陣就是原始樣本數據的相關矩陣。這里所說的標准化指正態化,即將原始數據處理成均值為0,方差為1的標准數據。
即:
X'=(X-EX)/DX
用matlab函數表達為:
X'=zscore(X)
則協方差矩陣和相關矩陣的關系可表達為:
correoff(X)=cov(zscore(X))



