cov(x,y)=EXY-EX*EY
舉例:
Xi 1.1 1.9 3
Yi 5.0 10.4 14.6
E(X) = (1.1+1.9+3)/3=2
E(Y) = (5.0+10.4+14.6)/3=10
E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02
Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02
此外:還可以計算:D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.606 σx=0.778888
D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93
X,Y的相關系數:
r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.778888×3.93) = 0.986
表明這組數據X,Y之間相關性很好!
補充:計算協方差矩陣
如計算矩陣 1 2 3
10 20 30 的協方差矩陣。
計算結果為:
40.5000 81.0000 121.5000
81.0000 162.0000 243.0000
121.5000 243.0000 364.5000
協方差 🔗https://www.cnblogs.com/terencezhou/p/6235974.html
通常,在提到協方差的時候,需要對其進一步區分。(1)隨機變量的協方差。跟數學期望、方差一樣,是分布的一個總體參數。(2)樣本的協方差。是樣本集的一個統計量,可作為聯合分布總體參數的一個估計。在實際中計算的通常是樣本的協方差。
隨機變量的協方差
在概率論和統計中,協方差是對兩個隨機變量聯合分布線性相關程度的一種度量。兩個隨機變量越線性相關,協方差越大,完全線性無關,協方差為零。定義如下。
cov(X,Y)=E[(X−E[X])(Y−E[Y])]
當X,Y是同一個隨機變量時,X與其自身的協方差就是X的方差,可以說方差是協方差的一個特例。
cov(X,X)=E[(X−E[X])(X−E[X])]
或
var(X)=cov(X,X)=E[(X−E[X])2]
由於隨機變量的取值范圍不同,兩個協方差不具備可比性。如X,Y,Z分別是三個隨機變量,想要比較X與Y的線性相關程度強,還是X與Z的線性相關程度強,通過cov(X,Y)與cov(X,Z)無法直接比較。定義相關系數η為
通過X的方差var(X)與Y的方差var(Y)對協方差cov(X,Y)歸一化,得到相關系數η,η的取值范圍是[−1,1]。1表示完全線性相關,−1表示完全線性負相關,0表示線性無關。線性無關並不代表完全無關,更不代表相互獨立。
樣本的協方差
在實際中,通常我們手頭會有一些樣本,樣本有多個屬性,每個樣本可以看成一個多維隨機變量的樣本點,我們需要分析兩個維度之間的線性關系。協方差及相關系數是度量隨機變量間線性關系的參數,由於不知道具體的分布,只能通過樣本來進行估計。
設樣本對應的多維隨機變量為X=[X1,X2,X3,...,Xn]TX=[X1,X2,X3,...,Xn]T,樣本集合為{x⋅j=[x1j,x2j,...,xnj]T|1⩽j⩽m},m為樣本數量。與樣本方差的計算相似,a和b兩個維度樣本的協方差公式為,其中1⩽a⩽n,1⩽b⩽n,n為樣本維度
這里分母為m−1m−1是因為隨機變量的數學期望未知,以樣本均值代替,自由度減一。