摘錄wiki如下(紅色字體是特別標注的部分):
http://zh.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE
協方差
協方差(Covariance)在概率論和統計學中用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
期望值分別為
與
的兩個實數隨機變量X 與Y 之間的協方差定義為:
-
,
其中E是期望值。它也可以表示為:
-
,
直觀上來看,協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那么兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那么兩個變量之間的協方差就是負值。
如果X 與Y 是統計獨立的,那么二者之間的協方差就是0,這是因為
但是反過來並不成立,即如果X 與Y 的協方差為0,二者並不一定是統計獨立的。只能說是線性無關
取決於協方差的相關性η(這東西又叫皮爾遜系數,參見另一篇博文)
-
=E(XY)/√EX2√EY2
更准確地說是線性相關性,是一個衡量線性獨立的無量綱數,其取值在[0,+1]之間。相關性η = 1時稱為“完全線性相關”,此時將Yi對Xi作Y-X 散點圖,將得到一組精確排列在直線上的點;相關性數值介於0到1之間時,其越接近1表明線性相關性越好,作散點圖得到的點的排布越接近一條直線。
相關性為0(因而協方差也為0)的兩個隨機變量又被稱為是不相關的,或者更准確地說叫作“線性無關”、“線性不相關”,這僅僅表明X 與Y 兩隨機變量之間沒有線性相關性,並非表示它們之間一定沒有任何內在的(非線性)函數關系,和前面所說的“X、Y二者並不一定是統計獨立的”說法一致。
如果要用公式寫一下的話,注意,當X,Y是線性相關的變量時(均去中心化,那么Y和X就是倍數關系),Y=aX。截距b被去中心化了
對η還是要再說明一下:這個東西是衡量X,Y的線性相關程度的。也可以通俗的講,η衡量的是X,Y的關系有“多像”線性相關。也就是說它是從線性相關的角度來觀察X和Y的。如果XY就是線性相關的,那自然η就是1,確實“很像”;但如果XY是其他相關,比如對數相關y=log(x)y之類的,η也是衡量這個對數相關有“多像”線性相關。更深究一點,衡量有“多像”這個事情,實際上是衡量Y與X的變化趨勢是否保持一致,比如x擴大幾倍,y也擴大幾倍。倍數越不一樣說明越不像線性相關。
屬性
如果X 與Y 是實數隨機變量,a 與b 不是隨機變量,那么根據協方差的定義可以得到:
-
,
-
,
-
,
對於隨機變量序列X1, ..., Xn與Y1, ..., Ym,有
-
,
對於隨機變量序列X1, ..., Xn,有
-
。
協方差矩陣[編輯]
分別為m 與n 個標量元素的列向量隨機變量X 與Y,二者對應的期望值分別為μ與ν,這兩個變量之間的協方差定義為m×n 矩陣
兩個向量變量的協方差cov(X, Y)與cov(Y, X)互為轉置矩陣。
