協方差矩陣和相關矩陣


1、協方差矩陣

  • 協方差是衡量兩個隨機變量(同一樣本,不同分量)的相關程度。(方差描述的是一維變量)
  • 隨機變量 之間的協方差可以表示為

麥庫截圖20141924194325293

  • 根據已知的樣本值可以得到協方差的估計值如下(列向量相關):

麥庫截圖20141924194356654

  • 可以進一步地簡化為:

麥庫截圖20141924194613544

  • 協方差矩陣:

麥庫截圖20141924194646069

  • 說明:

(1)協方差矩陣中的每一個元素是表示的隨機向量X的不同分量之間的協方差(不同維數的相關性,即列向量的相關性),是個對稱矩陣,而不是不同樣本之間的協方差,如元素Cij就是反映的隨機變量Xi, Xj的協方差。

(2)協方差是反映的變量之間的二階統計特性,如果隨機向量的不同分量之間的相關性很小,則所得的協方差矩陣幾乎是一個對角矩陣。對於一些特殊的應用場合,為了使隨機向量的長度較小,可以采用主成分分析的方法,使變換之后的變量的協方差矩陣完全是一個對角矩陣,之后就可以舍棄一些能量較小的分量了(對角線上的元素反映的是方差,也就是交流能量)。特別是在模式識別領域,當模式向量的維數過高時會影響識別系統的泛化性能,經常需要做這樣的處理。

(3)求協方差矩陣的matlab函數:cov

2、相關矩陣

  • 相關系數:

著名統計學家卡爾·皮爾遜設計了統計指標——相關系數。相關系數是用以反映變量之間相關關系密切程度的統計指標。相關系數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;着重研究線性的單相關系數。

依據相關現象之間的不同特征,其統計指標的名稱有所不同。如將反映兩變量間線性相關關系的統計指標稱為相關系數(相關系數的平方稱為判定系數);將反映兩變量間曲線相關關系的統計指標稱為非線性相關系數、非線性判定系數;將反映多元線性相關關系的統計指標稱為復相關系數、復判定系數等。

相關系數用r表示,它的基本公式(formula)為:

麥庫截圖20141924194930979

  • 相關系數的值介於–1與+1之間,即–1≤r≤+1。其性質如下:

當r>0時,表示兩變量正相關,r<0時,兩變量為負相關。

當|r|=1時,表示兩變量為完全線性相關,即為函數關系。

當r=0時,表示兩變量間無線性相關關系。

當0<|r|<1時,表示兩變量存在一定程度的線性相關。且|r|越接近1,兩變量間線性關系越密切;|r|越接近於0,表示兩變量的線性相關越弱。

一般可按三級划分:|r|<0.4為低度線性相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關。

  • 相關矩陣也叫相關系數矩陣,是由矩陣各列間的相關系數構成的
  • 也就是說,相關矩陣第i行第j列的元素是原矩陣第i列和第j列的相關系數
  • 求取相關矩陣的matlab函數為:correoff

3、協方差矩陣和相關矩陣的關系

由二者的定義公式可知,經標准化的樣本數據的協方差矩陣就是原始樣本數據的相關矩陣。這里所說的標准化指正態化,即將原始數據處理成均值為0,方差為1的標准數據。

即:

                                     X'=(X-EX)/DX

用matlab函數表達為: 

                                     X'=zscore(X)

則協方差矩陣和相關矩陣的關系可表達為:

                           correoff(X)=cov(zscore(X))


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM