變量說明:
設為一組隨機變量,這些隨機變量構成隨機向量
(1)
當中
單隨機變量間的協方差:
隨機變量
(2)
依據已知的樣本值能夠得到協方差的預計值例如以下:
(3)
能夠進一步地簡化為:
(4)
(5)
當中
假設全部樣本的均值為一個零向量,則式(5)能夠表達成:
(6)
補充說明:
1、協方差矩陣中的每個元素是表示的隨機向量X的不同分量之間的協方差,而不是不相同本之間的協方差,如元素Cij就是反映的隨機變量Xi, Xj的協方差。
2、協 方差是反映的變量之間的二階統計特性,假設隨機向量的不同分量之間的相關性非常小,則所得的協方差矩陣差點兒是一個對角矩陣。對於一些特殊的應用場合,為了使 隨機向量的長度較小,能夠採用主成分分析的方法,使變換之后的變量的協方差矩陣全然是一個對角矩陣,之后就能夠舍棄一些能量較小的分量了(對角線上的元素 反映的是方差,也就是交流能量)。特別是在模式識別領域,當模式向量的維數過高時會影響識別系統的泛化性能,常常須要做這種處理。
3、必須注意的是,這里所得到的式(5)和式(6)給出的僅僅是隨機向量協方差矩陣真實值的一個預計(即由所測的樣本的值來表示的,隨着樣本取值的不同會發生變化),故而所得的協方差矩陣是依賴於採樣樣本的,而且樣本的數目越多,樣本在整體中的覆蓋面越廣,則所得的協方差矩陣越可靠。
在概率論和統計學中,相關或稱相關系數或關聯系數,顯示兩個隨機變量之間線性關系的強度和方向。在統計學中,相關的意義是用來衡量兩個變量相對於其相互獨立的距離。在這個廣義的定義下,有很多依據數據特點而定義的用來衡量數據相關的系數。
對於不同數據特點,能夠使用不同的系數。最經常使用的是皮爾遜積差相關系數。其定義是兩個變量協方差除以兩個變量的標准差(方差)。
皮爾遜積差系數
數學特征
由於μX = E(X),σX2 = E(X2) − E2(X),相同地,對於Y,能夠寫成
當兩個變量的標准差都 不為零,相關系數才有定義。從柯西—施瓦茨不等式可知,相關系數不超過1. 當兩個變量的線性關系增強時,相關系數趨於1或-1。當一個變量添加而還有一變量也添加時,相關系數大於0。當一個變量的添加而還有一變量降低時,相關系數小 於0。當兩個變量獨立時,相關系數為0.但反之並不成立。 這是由於相關系數只反映了兩個變量之間是否線性相關。比方說,X是區間[-1,1]上的一個均勻分布的隨機變量。Y = X2. 那么Y是全然由X確定。因此Y 和X是不獨立的。可是相關系數為0。或者說他們是不相關的。當Y 和X服從聯合正態分布時,其相互獨立和不相關是等價的。
當一個或兩個變量帶有測量誤差時,他們的相關性就受到削弱,這時,“反衰減”性(disattenuation)是一個更准確的系數。