統計2:隨機變量及其分布


在一些隨機試驗中,結果可以用數值來表示,此時樣本空間S的元素是數字;但是,有些試驗,當樣本空間S的元素不是數字時,就需要引入隨機變量的概念了。

設S是樣本空間,把隨機試驗的每一個結果,即把S的每個元素e與實數對應起來,從而便於對S進行描述和研究。

一,隨機變量

定義 設隨機試驗的樣本空間為S={e},X=X(e)是定義在樣本空間S上的單值函數,稱X=X(e)為隨機變量。

(1),有許多隨機試驗,結果本身是一個數,即樣本點e本身是一個數,令X=X(e)=e,那么X就是一個隨機變量。

(2),把一枚硬幣拋擲三次,把出現正面記作A,把出現反面記作B,那么樣本空間S={e}={AAA,AAB,ABA,ABB,BAA,BAB,BBA,BBB},

  設隨機變量X是出現正面的次數,那么隨機變量X=X(e)={0,1,2,3},

  由此,可以計算出:隨機變量X=2發生的的概率是 P{X=2}=P{AAB, ABA, BAA}=3/8。 

因為隨機變量是元素的單值函數,所以隨機變量對應樣本空間的一個或多個元素。

如何計算隨機變量的概率,下文給出了三種方式:

  • 分布律:適用於離散型隨機變量
  • 分布函數:適用於離散型隨機變量和連續型隨機變量
  • 概率密度函數:適用於連續型隨機變量

注意:連續型隨機變量取任意指定的實數值的概率都等於0,即P{X=a} =0,但是,概率為0並不意味着,{X=a}是不可能事件,只是事件{X=a}發生的概率非常小,小到幾乎不可能發生。

二,離散型隨機變量

有些隨機變量,它全部可能取到的值是有限多個或可列無線多個,這種隨機變量稱為離散型隨機變量。

要掌握一個離散型隨機變量X的統計規律,只需要直到X的所有可能取值,以及取每一個可能值得概率。

設離散型隨機變量X所有可能取值為xk(k=1,2,...),X取各個可能值得概率,即事件{X=xk}的概率為:

P{X=xk}=pk,k=1,2,...

離散型隨機變量常用的分布規律是:0-1分布律,二項分布率,泊松分布律,讀者需要知道分布律的特性。

1,0-1分布律

對於一個隨機變量,如果樣本空間只包含兩個元素,即S={e1,e2},可以定義隨機變量X來描述隨機試驗的結果:

隨機變量X只可能取值0和1兩個值,分布律是:

P{X=k}=pk(1-p)1-k, k=0,1 (0<p<1)

 2,二項分布律

設試驗E只有兩個可能結果A和B,設P(A)=p( 0<p<1),此時P(B)=1-p,把試驗E獨立重復地進行n次,則稱這一串重復的獨立試驗服從二項分布律:

隨機變量X只可能取值0和1兩個值,把分布律是:

對於固定的n和p,二項分布b(n,p)的概率分布是:當k增加時,概率P{X=k}先是隨之增加,直至達到最大值,隨后單調減少。

3,泊松分布律

設隨機變量X所有可能取得值是0,1,2,...,而取各個值得概率是:

 

其中參數λ>0,是常數,泊松分布的參數λ是單位時間內隨機事件平均發生的次數。泊松分布的圖形大概是

 

可以看到,泊松分布的特點是概率先隨着k值的增加而增加,再達到頂點后,隨着k值的增加而減少。

泊松分布和二項分布得圖形很相似,實際上,可以使用泊松分布來逼近二項分布:

λ>0 是常數,n是任意正整數,設np=λ,以n,p為參數得二項分布得概率值,可以有參數為λ=np得泊松分布概率值近似,可以用作二項分布概率的近似計算。

三,隨機變量的分布函數

為了研究隨機變量取值落在一個區間(x1, x2]的概率: P{x1<X<=x2}

引入隨機變量的分布函數:

定義 設X是一個隨機變量,x是任意實數,函數

F(x)=P{X<=x}

稱作X的分布函數,對於任意實數x1,x2 (x1<x2),如何計算隨機變量X落在區間(x1, x2]的概率?

P{x1<X<=x2}=P{X<=x2}-P{x<=x1}=F(x2)-F(x1)

因此,如果已知X的分布函數,就知道X落在任一區間(x1, x2]的概率,從這個意義上說,分布函數完整地描述了隨機變量的統計規律性。

分布函數是一個普通的函數,如果把X看成數軸上的隨機點的坐標,那么分布函數F(x)在x處的函數值就表示X落在區間(-∞, x]上的概率。

四,連續型隨機變量的概率密度函數

定義 如果對於隨機變量X的分布函數F(x),存在非負可積函數f(x),使對於任意實數x有分布函數:

則X為連續型隨機變量,稱f(x)為X的概率密度函數,簡稱為概率密度。

如何通過概率密度函數計算隨機變量的概率?對於任意實數a,b(a<=b),隨機變量的取值落在區間(a,b]的概率是:

 連續性隨機變量使用概率密度來研究,服從概率密度函數, 概率密度是什么意思?簡單來說,就是連續隨機變量落在某個區間的面積就是其概率。

讀者需要知道常用的概率密度是:均勻分布,指數分布和正態分布。

1,均勻分布

均勻分布的概率密度函數為:

均分分布的概率密度函數是,落在區間(a,b)內任意等長度的子區間內的可能性是相同的,或者說,落在(a,b)的子區間內的概率只依賴於子區間的長度,而與子區間的位置無關。

2,指數分布

指數分布概率分布函數是:

其中λ > 0為常數,指數分布的概率密度函數如下圖所示:

3,正態分布

正態分布的的概率密度函數是,其中μ,σ( σ>0)為常數,μ是數學期望,σ是標准差。

若隨機變量X服從一個數學期望為μ、方差為σ2的正態分布,記為X~N(μ,σ2),其概率密度函數為正態分布的期望值μ決定了其位置,其標准差σ決定了分布的幅度。

正態分布的概率密度圖形如下所示,其圖形是關於x=μ對稱的,當x=μ時取得最大值。x離μ越遠,f(x)的取值越小,這表明,對於同樣長度的區間,當區間遠離μ時,X落在這個區間上的概率越小。

 

結論:

  • x離μ越遠,f(x)的取值越小,這表明,對於同樣長度的區間,當區間遠離μ時,X落在這個區間上的概率越小。
  • 若 X~N(μ,σ2),那么隨機變量X的期望和方差是:E(X)=μ,D(X)=σ2

我們把μ = 0,σ = 1的正態分布是標准正態分布。

在自然和社會現象中,大量隨機變量都服從或近似服從正態分布。

五,一維隨機變量的函數的分布

定義 設X是隨機變量,那么Y=g(X)是隨機變量的函數;當X取值x時,Y取值g(x)。

如何計算Y的概率分布?可以通過隨機變量X來計算Y的概率:

  • 當已知X的分布律時,可以通過X的分布律來計算Y的分布律;
  • 當已知X的分布函數時,可以通過X的分布函數來計算Y的分布函數;
  • 當已知X的概率密度函數時,可以通過X的概率密度函數來計算Y的概率密度函數。

因此,Y是另一個隨機變量,其概率可以由隨機變量X來計算。

六,二維隨機變量

在實際問題中,對於某些隨機試驗的結果,需要同時用兩個或兩個以上的隨機變量來描述,例如,為了研究某一個地區學齡前兒童的發育情況,對這一地區的兒童進行抽樣,對於每個兒童都能觀察到身高(H)和體重(W),因此,設樣本空間S={e}={某地區的全部學齡前兒童},而H(e)和W(e)是定義在S上的兩個隨機變量。

設E是一個隨機試驗,樣本空間是S={e},設X=X(e),Y=Y(e)是定義在S上的隨機變量,把(X,Y)叫做二維隨機變量。

二維隨機變量(X,Y)的性質不僅跟X和Y有關,而且還依賴於這倆那哥哥隨機變量的相互關系。因此,逐個地研究X和Y的性質是不夠的,還需要將(X,Y)看作一個整體來進行。

定義 設(X,Y)是二維隨機變量,對於任意實數x,y,二元函數:

F(x)=P{X<=x 且 Y<=y}=P{X<=x, Y<=y}

稱作二維隨機變量(X,Y)的分布函數,或稱為隨機變量X和Y的聯合分布函數。

如果把二維隨機變量(X,Y)看作是平面上隨機點的坐標,那么容易計算出隨機點(X,Y)落在舉行區域{(x,y) | x1<x<=x2, y1<y<=y2}的概率為:

P{x1 < X <=x2, y1<Y<=y2}=F(x2,y2) + F(x1+y1) - F(x2,y1) - F(x1,y2)

七,相互獨立的多維隨機變量

定義 設F(x,y)和Fx(x,y),Fy(x,y)分別是二維隨機變量(X,Y)的分布函數以及邊緣分布函數,若對於所有x,y,有

P{X<=x, Y<=y}=P{X<=x} P{Y<=x}, 即F(x,y)=Fx(x,y) Fy(x,y) ,

則稱隨機變量X和Y是相互獨立的。把二維隨機變量推廣到n維隨機變量(X1,X2,...,Xn),得到n維隨機變量的分布函數定義為:

F(x1,x2,...,xn)=P{X1<=x1,X2<=x2,...,Xn<=xn},其中 x1,x2,...,xn為任意實數。

如果X1,X2,...Xn是相互獨立的,那么

F(x1,x2,...,xn)=Fx1(x1) Fx2(x2) ... Fxn(xn)

定理:設(X1,X2,...,Xm)和(Y1,Y2,...,Yn)相互獨立,則Xi(i=1,2,...,m)和Yj(j=1,2,...,n)相互獨立,如果h,g是連續函數,則h(X1,X2,...,Xm)和g(Y1,Y2,...,Yn)相互獨立。

八,隨機變量的函數的分布

設X,Y相互獨立,且X和Y都服從正態分布,那么隨機變量Z=X+Y也服從正態分布。

這個結論還能推廣到n個獨立的服從正態分布的隨機變量之和的情況,

即,若Xi(i=1,2,...,n)相互獨立,且服從正態分布,那么Z=X1+X2+...+Xn 仍然服從正態分布。

一般,有限個相互獨立的,且服從正態分布的隨機變量的線性組合仍然服從正態分布。

九,大數定律

大數定律(law of large numbers),是一種描述當試驗次數很大時所呈現的概率性質的定律。

1,弱大數定律(辛欽大數定理)

設隨機變量X1,X2,...,Xnx相互獨立,服從同一個分布,且具有相同的數學期望μ,則序列的期望:

以概率收斂於μ,也就是說,隨着n的增大,  與μ之間的誤差會越來越小。

白話:一個團的軍人的平均身高是a,n個團的軍人的平均身高近似等於a。

2,伯努利大數定理

當n足夠大時,事件A出現的頻率將幾乎接近於其發生的概率,即頻率的穩定性。

白話:如果一個團的軍人數量足夠多,那么這個團的軍人的平均身高是穩定的。

3,切比雪夫大數定理

隨着樣本容量n的增加,樣本平均數將接近於總體平均數。從而為統計推斷中依據樣本平均數估計總體平均數提供了理論依據。

白話:如果一個團的軍人數量足夠多,那這個團的軍人平均身高可以代表整個軍隊的軍人的平均身高。

十,中心極限定理

中心極限定理表明,在相當一般的條件下,當獨立隨機變量的個數不斷增加時,其和的分布趨於正態分布。通俗地說,如果一個事件受到N(N趨近於無窮)個獨立因素的共同影響,且每個因素產生的影響都是獨立的,那么這個事件發生的概率就服從中心極限定理,收斂於正態分布。因此,在實際應用中,正態分布是非常重要的,只要影響因素足夠多,每個因素的作用都很微小,不必考慮每個因素服從什么分布,都可以用正態分布來預測事件發生的概率。

1,獨立同分布的中心極限定理

設隨機變量X1,X2,...,Xn相互獨立,服從同一分布,並且具有有限的數學期望和方差:E(Xi)=μ,D(Xi)=σ2  >0  (k=1,2....),

當n很大時,隨機變量之和的標准化變量:   近似地服從標准正態分布N(0,1)。

因此,當n很大時,  近似地服從正態分布N(nμ,nσ2)。該定理是中心極限定理最簡單又最常用的一種形式,在實際工作中,只要n足夠大,便可以把獨立同分布的隨機變量之和當作正態變量。

白話:標准化變量Yn近似地服從標准正態分布。

2,棣莫佛-拉普拉斯定理

設隨機變量Yn(n=1,2,...,)服從參數為n,p(0<p<1)的二項分布,則對於任意x,都有

白話:這個定理表明,正態分布是二項分布的極限分布,當n充分大時,可以由該定理近似地求二項分布的概率。

3,不同分布的中心極限定理

設隨機變量X1,X2,......Xn,......獨立同分布,具有數學期望E(Xk)=μk 和方差   (k=1,2,...), 記:

則隨機變變量之和 的標准化變量:  近似地服從標准正態分布N(0,1)。
 
該定理說明:當n很大時,隨機變量Yn近似地服從標准正態分布N(0,1)。
這就是說,無論各個隨機變量Xk(k=1,2,...,n)服從什么分布,只要滿足定理的條件(具有期望和方差),那么它們的標准化變量Yn就近似地服從標准正態分布N(0,1),或者說,
 近似地服從正態分布N(nμ,nσ 2)。
白話:標准化變量Yn近似地服從標准正態分布。

 

參考文檔:

大數定律

中心極限定理


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM