這篇文章總結了概率統計中期望、方差、協方差和相關系數的定義、性質和基本運算規則。
一、期望
定義:
設P(x)是一個離散概率分布函數自變量的取值范圍是。那么其期望被定義為:

設P(x)是一個連續概率分布函數 ,那么他的期望是:

性質:
1.線性運算:
期望服從先行性質,因此線性運算的期望等於期望的線性運算:
我們可以把它推廣到任意一般情況:

2.函數的期望:
設f(x)是x的函數,則f(x)的期望為:
離散:
連續:
3.乘積的期望:
一般來說,乘積的期望不等於期望的乘積,除非變量相互獨立。因此,如果x和y相互獨立,則
期望的運算構成了統計量的運算基礎,因為方差、協方差等統計量本質上是一種特殊的期望。
設C為一個常數,X和Y是兩個
隨機變量。以下是數學期望的重要性質:
1.E(C)=C
2.E(CX)=CE(X)
3.E(X+Y)=E(X)+E(Y)
4.當X和Y相互獨立時,E(XY)=E(X)E(Y)
性質3和性質4可以推到到任意有限個相互獨立的隨機變量之和或之積的情況。
例子:
某城市有10萬個家庭,沒有孩子的家庭有1000個,有一個孩子的家庭有9萬個,有兩個孩子的家庭有6000個,有3個孩子的家庭有3000個。求一個家庭平均小孩的數目:
思路:則此城市中任一個家庭中孩子的數目是一個隨機變量。它可取值0,1,2,3。其中取0的概率為0.01(1000/10萬),取1的概率0.9(9000/10萬),取2的概率為0.06(6000/10萬),取3的概率為0.03(3000/10萬)。它的數學期望0×0.01+1×0.9+2×0.06+3×0.03等於1.11,即此城市一個家庭平均有小孩1.11個。用數學式子表示為E(X)=1.11。


二、方差
定義:
方差是一種特殊的期望, 被定義為:
離散型的方差:
連續型的方差:
以上兩式是一樣的,只是寫法不同。
證明:由數學期望的性質得


性質:
1.設C是
常數,則D(C)=0
2.設X是隨機變量,C是常數,則有

3.設 X 與 Y 是兩個隨機變量,則

其中協方差

特別的,當X,Y是兩個不相關的隨機變量(相互獨立)則

此性質可以推廣到有限多個兩兩不相關的隨機變量之和的情況。
統計學意義:
方差和標准差是測算離散趨勢最重要、最常用的指標。方差是各變量值與其
均值
離差平方的平均數,它是測算
數值型數據
離散程度的最重要的方法。標准差為方差的算術平方根,用S表示。方差相應的計算公式為(無偏性)。

三、協方差
定義:
在
概率論和統計學中,協方差用於衡量兩個變量的總體誤差。期望值分別為E[X]與E[Y]的兩個實隨機變量X與Y之間的協方差Cov(X,Y)定義為:




特殊情況下,當X=Y時:
從直觀上來看,協方差表示的是兩個變量總體誤差的期望。
如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那么兩個變量之間的協方差就是正值;如果兩個變量的變化趨勢相反,即其中一個變量大於自身的期望值時另外一個卻小於自身的期望值,那么兩個變量之間的協方差就是負值。
如果X與Y是統計獨立的,那么二者之間的協方差就是0,因為兩個獨立的隨機變量滿足E[XY]=E[X]E[Y]。
但是,反過來並不成立。即如果X與Y的協方差為0,二者並不一定是統計獨立的。
性質:
(1)Cov(X,Y)=Cov(Y,X);
(2)Cov(aX,bY)=abCov(X,Y),(a,b是常數);
(3)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)。
由協方差定義,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。
四、相關系數
協方差作為描述X和Y相關程度的量,在同一物理量綱之下有一定的作用,但同樣的兩個量采用不同的量綱使它們的協方差在數值上表現出很大的差異。為此引入如下概念;
定義:

稱為隨機變量X和Y的(Pearson)相關系數。
性質:
1.若ρXY=0,則稱X與Y不線性相關。
2.即ρXY=0的充分必要條件是Cov(X,Y)=0,亦即不相關和協方差為零是等價的。
3.相關系數ρXY取值在-1到1之間,ρXY = 0時,稱X,Y不相關;
| ρXY | = 1時,稱X,Y
完全相關,此時,X,Y之間具有線性函數關系;
| ρXY | < 1時,X的變動引起Y的部分變動,ρXY的絕對值越大,X的變動引起Y的變動就越大;
| ρXY | > 0.8時稱為高度相關,當 | ρXY | < 0.3時稱為低度相關,其它時候為中度相關。
五、參考資料
2.北航之張洋系列