協方差矩陣, 相關系數矩陣


 

變量說明:

為一組隨機變量,這些隨機變量構成隨機向量 ,每一個隨機變量有m個樣本,則有樣本矩陣

                                                           1

當中 相應着每一個隨機向量X的樣本向量, 相應着第i個隨機單變量的全部樣本值構成的向量。

 

單隨機變量間的協方差:

隨機變量 之間的協方差能夠表示為

                                                                   2

依據已知的樣本值能夠得到協方差的預計值例如以下:

                                                           3

能夠進一步地簡化為:

                           4

  協方差矩陣:  

  

                         5

當中 從而得到了協方差矩陣表達式。

假設全部樣本的均值為一個零向量,則式(5)能夠表達成:

    6

 

補充說明:

 

1、協方差矩陣中的每個元素是表示的隨機向量X的不同分量之間的協方差,而不是不相同本之間的協方差,如元素Cij就是反映的隨機變量Xi, Xj的協方差

2、協 方差是反映的變量之間的二階統計特性,假設隨機向量的不同分量之間的相關性非常小,則所得的協方差矩陣差點兒是一個對角矩陣。對於一些特殊的應用場合,為了使 隨機向量的長度較小,能夠採用主成分分析的方法,使變換之后的變量的協方差矩陣全然是一個對角矩陣,之后就能夠舍棄一些能量較小的分量了(對角線上的元素 反映的是方差,也就是交流能量)。特別是在模式識別領域,當模式向量的維數過高時會影響識別系統的泛化性能,常常須要做這種處理

3、必須注意的是,這里所得到的式(5)和式(6)給出的僅僅是隨機向量協方差矩陣真實值的一個預計(即由所測的樣本的值來表示的,隨着樣本取值的不同會發生變化),故而所得的協方差矩陣是依賴於採樣樣本的,而且樣本的數目越多,樣本在整體中的覆蓋面越廣,則所得的協方差矩陣越可靠。

4、 如同協方差和相關系數的關系一樣,我們有時為了可以更直觀地知道隨機向量的不同分量之間的相關性到底有多大,還會引入相關系數矩陣。


概率論統計學中,相關或稱相關系數關聯系數,顯示兩個隨機變量之間線性關系的強度和方向。在統計學中,相關的意義是用來衡量兩個變量相對於其相互獨立的距離。在這個廣義的定義下,有很多依據數據特點而定義的用來衡量數據相關的系數。

對於不同數據特點,能夠使用不同的系數。最經常使用的是皮爾遜積差相關系數。其定義是兩個變量協方差除以兩個變量的標准差(方差)。

皮爾遜積差系數


數學特征

/rho_{X,Y}={/mathrm{cov}(X,Y) /over /sigma_X /sigma_Y} ={E((X-/mu_X)(Y-/mu_Y)) /over /sigma_X/sigma_Y},

當中,E數學期望,cov表示協方差

由於μX = E(X)σX2 = E(X2) − E2(X),相同地,對於Y,能夠寫成

/rho_{X,Y}=/frac{E(XY)-E(X)E(Y)}{/sqrt{E(X^2)-E^2(X)}~/sqrt{E(Y^2)-E^2(Y)}}.

當兩個變量的標准差都 不為零,相關系數才有定義。從柯西—施瓦茨不等式可知,相關系數不超過1. 當兩個變量的線性關系增強時,相關系數趨於1或-1。當一個變量添加而還有一變量也添加時,相關系數大於0。當一個變量的添加而還有一變量降低時,相關系數小 於0。當兩個變量獨立時,相關系數為0.但反之並不成立。 這是由於相關系數只反映了兩個變量之間是否線性相關。比方說,X是區間[-1,1]上的一個均勻分布的隨機變量。Y = X2. 那么Y是全然由X確定。因此YX是不獨立的。可是相關系數為0。或者說他們是不相關的。當YX服從聯合正態分布時,其相互獨立和不相關是等價的。

當一個或兩個變量帶有測量誤差時,他們的相關性就受到削弱,這時,“反衰減”性(disattenuation)是一個更准確的系數。



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM