在一些隨機試驗中,結果可以用數值來表示,此時樣本空間S的元素是數字;但是,有些試驗,當樣本空間S的元素不是數字時,就需要引入隨機變量的概念了。
設S是樣本空間,把隨機試驗的每一個結果,即把S的每個元素e與實數對應起來,從而便於對S進行描述和研究。
一,隨機變量
定義 設隨機試驗的樣本空間為S={e},X=X(e)是定義在樣本空間S上的單值函數,稱X=X(e)為隨機變量。
(1),有許多隨機試驗,結果本身是一個數,即樣本點e本身是一個數,令X=X(e)=e,那么X就是一個隨機變量。
(2),把一枚硬幣拋擲三次,把出現正面記作A,把出現反面記作B,那么樣本空間S={e}={AAA,AAB,ABA,ABB,BAA,BAB,BBA,BBB},
設隨機變量X是出現正面的次數,那么隨機變量X=X(e)={0,1,2,3},
由此,可以計算出:隨機變量X=2發生的的概率是 P{X=2}=P{AAB, ABA, BAA}=3/8。
因為隨機變量是元素的單值函數,所以隨機變量對應樣本空間的一個或多個元素。
如何計算隨機變量的概率,下文給出了三種方式:
- 分布律:適用於離散型隨機變量
- 分布函數:適用於離散型隨機變量和連續型隨機變量
- 概率密度函數:適用於連續型隨機變量
注意:連續型隨機變量取任意指定的實數值的概率都等於0,即P{X=a} =0,但是,概率為0並不意味着,{X=a}是不可能事件,只是事件{X=a}發生的概率非常小,小到幾乎不可能發生。
二,離散型隨機變量
有些隨機變量,它全部可能取到的值是有限多個或可列無線多個,這種隨機變量稱為離散型隨機變量。
要掌握一個離散型隨機變量X的統計規律,只需要直到X的所有可能取值,以及取每一個可能值得概率。
設離散型隨機變量X所有可能取值為xk(k=1,2,...),X取各個可能值得概率,即事件{X=xk}的概率為:
P{X=xk}=pk,k=1,2,...
離散型隨機變量常用的分布規律是:0-1分布律,二項分布率,泊松分布律,讀者需要知道分布律的特性。
1,0-1分布律
對於一個隨機變量,如果樣本空間只包含兩個元素,即S={e1,e2},可以定義隨機變量X來描述隨機試驗的結果:
隨機變量X只可能取值0和1兩個值,分布律是:
P{X=k}=pk(1-p)1-k, k=0,1 (0<p<1)
2,二項分布律
設試驗E只有兩個可能結果A和B,設P(A)=p( 0<p<1),此時P(B)=1-p,把試驗E獨立重復地進行n次,則稱這一串重復的獨立試驗服從二項分布律:
隨機變量X只可能取值0和1兩個值,把分布律是:
對於固定的n和p,二項分布b(n,p)的概率分布是:當k增加時,概率P{X=k}先是隨之增加,直至達到最大值,隨后單調減少。
3,泊松分布律
設隨機變量X所有可能取得值是0,1,2,...,而取各個值得概率是:
其中參數λ>0,是常數,泊松分布的參數λ是單位時間內隨機事件平均發生的次數。泊松分布的圖形大概是
可以看到,泊松分布的特點是概率先隨着k值的增加而增加,再達到頂點后,隨着k值的增加而減少。
泊松分布和二項分布得圖形很相似,實際上,可以使用泊松分布來逼近二項分布:
設λ>0 是常數,n是任意正整數,設np=λ,以n,p為參數得二項分布得概率值,可以有參數為λ=np得泊松分布概率值近似,可以用作二項分布概率的近似計算。
三,隨機變量的分布函數
為了研究隨機變量取值落在一個區間(x1, x2]的概率: P{x1<X<=x2}
引入隨機變量的分布函數:
定義 設X是一個隨機變量,x是任意實數,函數
F(x)=P{X<=x}
稱作X的分布函數,對於任意實數x1,x2 (x1<x2),如何計算隨機變量X落在區間(x1, x2]的概率?
P{x1<X<=x2}=P{X<=x2}-P{x<=x1}=F(x2)-F(x1)
因此,如果已知X的分布函數,就知道X落在任一區間(x1, x2]的概率,從這個意義上說,分布函數完整地描述了隨機變量的統計規律性。
分布函數是一個普通的函數,如果把X看成數軸上的隨機點的坐標,那么分布函數F(x)在x處的函數值就表示X落在區間(-∞, x]上的概率。
四,連續型隨機變量的概率密度函數
定義 如果對於隨機變量X的分布函數F(x),存在非負可積函數f(x),使對於任意實數x有分布函數:
則X為連續型隨機變量,稱f(x)為X的概率密度函數,簡稱為概率密度。
如何通過概率密度函數計算隨機變量的概率?對於任意實數a,b(a<=b),隨機變量的取值落在區間(a,b]的概率是:
連續性隨機變量使用概率密度來研究,服從概率密度函數, 概率密度是什么意思?簡單來說,就是連續隨機變量落在某個區間的面積就是其概率。
讀者需要知道常用的概率密度是:均勻分布,指數分布和正態分布。
1,均勻分布
均勻分布的概率密度函數為:
均分分布的概率密度函數是,落在區間(a,b)內任意等長度的子區間內的可能性是相同的,或者說,落在(a,b)的子區間內的概率只依賴於子區間的長度,而與子區間的位置無關。
2,指數分布
指數分布概率分布函數是:
其中λ > 0為常數,指數分布的概率密度函數如下圖所示:
3,正態分布
正態分布的的概率密度函數是,其中μ,σ( σ>0)為常數,μ是數學期望,σ是標准差。
若隨機變量X服從一個數學期望為μ、方差為σ2的正態分布,記為X~N(μ,σ2),其概率密度函數為正態分布的期望值μ決定了其位置,其標准差σ決定了分布的幅度。
正態分布的概率密度圖形如下所示,其圖形是關於x=μ對稱的,當x=μ時取得最大值。x離μ越遠,f(x)的取值越小,這表明,對於同樣長度的區間,當區間遠離μ時,X落在這個區間上的概率越小。
結論:
- x離μ越遠,f(x)的取值越小,這表明,對於同樣長度的區間,當區間遠離μ時,X落在這個區間上的概率越小。
- 若 X~N(μ,σ2),那么隨機變量X的期望和方差是:E(X)=μ,D(X)=σ2。
我們把μ = 0,σ = 1的正態分布是標准正態分布。
在自然和社會現象中,大量隨機變量都服從或近似服從正態分布。
五,一維隨機變量的函數的分布
定義 設X是隨機變量,那么Y=g(X)是隨機變量的函數;當X取值x時,Y取值g(x)。
如何計算Y的概率分布?可以通過隨機變量X來計算Y的概率:
- 當已知X的分布律時,可以通過X的分布律來計算Y的分布律;
- 當已知X的分布函數時,可以通過X的分布函數來計算Y的分布函數;
- 當已知X的概率密度函數時,可以通過X的概率密度函數來計算Y的概率密度函數。
因此,Y是另一個隨機變量,其概率可以由隨機變量X來計算。
六,二維隨機變量
在實際問題中,對於某些隨機試驗的結果,需要同時用兩個或兩個以上的隨機變量來描述,例如,為了研究某一個地區學齡前兒童的發育情況,對這一地區的兒童進行抽樣,對於每個兒童都能觀察到身高(H)和體重(W),因此,設樣本空間S={e}={某地區的全部學齡前兒童},而H(e)和W(e)是定義在S上的兩個隨機變量。
設E是一個隨機試驗,樣本空間是S={e},設X=X(e),Y=Y(e)是定義在S上的隨機變量,把(X,Y)叫做二維隨機變量。
二維隨機變量(X,Y)的性質不僅跟X和Y有關,而且還依賴於這倆那哥哥隨機變量的相互關系。因此,逐個地研究X和Y的性質是不夠的,還需要將(X,Y)看作一個整體來進行。
定義 設(X,Y)是二維隨機變量,對於任意實數x,y,二元函數:
F(x)=P{X<=x 且 Y<=y}=P{X<=x, Y<=y}
稱作二維隨機變量(X,Y)的分布函數,或稱為隨機變量X和Y的聯合分布函數。
如果把二維隨機變量(X,Y)看作是平面上隨機點的坐標,那么容易計算出隨機點(X,Y)落在舉行區域{(x,y) | x1<x<=x2, y1<y<=y2}的概率為:
P{x1 < X <=x2, y1<Y<=y2}=F(x2,y2) + F(x1+y1) - F(x2,y1) - F(x1,y2)
七,相互獨立的多維隨機變量
定義 設F(x,y)和Fx(x,y),Fy(x,y)分別是二維隨機變量(X,Y)的分布函數以及邊緣分布函數,若對於所有x,y,有
P{X<=x, Y<=y}=P{X<=x} P{Y<=x}, 即F(x,y)=Fx(x,y) Fy(x,y) ,
則稱隨機變量X和Y是相互獨立的。把二維隨機變量推廣到n維隨機變量(X1,X2,...,Xn),得到n維隨機變量的分布函數定義為:
F(x1,x2,...,xn)=P{X1<=x1,X2<=x2,...,Xn<=xn},其中 x1,x2,...,xn為任意實數。
如果X1,X2,...Xn是相互獨立的,那么
F(x1,x2,...,xn)=Fx1(x1) Fx2(x2) ... Fxn(xn)
定理:設(X1,X2,...,Xm)和(Y1,Y2,...,Yn)相互獨立,則Xi(i=1,2,...,m)和Yj(j=1,2,...,n)相互獨立,如果h,g是連續函數,則h(X1,X2,...,Xm)和g(Y1,Y2,...,Yn)相互獨立。
八,隨機變量的函數的分布
設X,Y相互獨立,且X和Y都服從正態分布,那么隨機變量Z=X+Y也服從正態分布。
這個結論還能推廣到n個獨立的服從正態分布的隨機變量之和的情況,
即,若Xi(i=1,2,...,n)相互獨立,且服從正態分布,那么Z=X1+X2+...+Xn 仍然服從正態分布。
一般,有限個相互獨立的,且服從正態分布的隨機變量的線性組合仍然服從正態分布。
九,大數定律
大數定律(law of large numbers),是一種描述當試驗次數很大時所呈現的概率性質的定律。
1,弱大數定律(辛欽大數定理)
設隨機變量X1,X2,...,Xnx相互獨立,服從同一個分布,且具有相同的數學期望μ,則序列的期望:
以概率收斂於μ,也就是說,隨着n的增大, 與μ之間的誤差會越來越小。
白話:一個團的軍人的平均身高是a,n個團的軍人的平均身高近似等於a。
2,伯努利大數定理
當n足夠大時,事件A出現的頻率將幾乎接近於其發生的概率,即頻率的穩定性。
白話:如果一個團的軍人數量足夠多,那么這個團的軍人的平均身高是穩定的。
3,切比雪夫大數定理
隨着樣本容量n的增加,樣本平均數將接近於總體平均數。從而為統計推斷中依據樣本平均數估計總體平均數提供了理論依據。
白話:如果一個團的軍人數量足夠多,那這個團的軍人平均身高可以代表整個軍隊的軍人的平均身高。
十,中心極限定理
中心極限定理表明,在相當一般的條件下,當獨立隨機變量的個數不斷增加時,其和的分布趨於正態分布。通俗地說,如果一個事件受到N(N趨近於無窮)個獨立因素的共同影響,且每個因素產生的影響都是獨立的,那么這個事件發生的概率就服從中心極限定理,收斂於正態分布。因此,在實際應用中,正態分布是非常重要的,只要影響因素足夠多,每個因素的作用都很微小,不必考慮每個因素服從什么分布,都可以用正態分布來預測事件發生的概率。
1,獨立同分布的中心極限定理
設隨機變量X1,X2,...,Xn相互獨立,服從同一分布,並且具有有限的數學期望和方差:E(Xi)=μ,D(Xi)=σ2 >0 (k=1,2....),
當n很大時,隨機變量之和的標准化變量:
近似地服從標准正態分布N(0,1)。
因此,當n很大時, 近似地服從正態分布N(nμ,nσ2)。該定理是中心極限定理最簡單又最常用的一種形式,在實際工作中,只要n足夠大,便可以把獨立同分布的隨機變量之和當作正態變量。
白話:標准化變量Yn近似地服從標准正態分布。
2,棣莫佛-拉普拉斯定理
設隨機變量Yn(n=1,2,...,)服從參數為n,p(0<p<1)的二項分布,則對於任意x,都有
白話:這個定理表明,正態分布是二項分布的極限分布,當n充分大時,可以由該定理近似地求二項分布的概率。
3,不同分布的中心極限定理
設隨機變量X1,X2,......Xn,......獨立同分布,具有數學期望E(Xk)=μk 和方差 ,(k=1,2,...), 記:



白話:標准化變量Yn近似地服從標准正態分布。
參考文檔: