一維隨機變量及其概率分布


1. 隨機變量的概念

顧名思義,隨機變量就是“其值隨機會而定”的變量。隨機變量的反面是“確定性變量”,即其值遵循某種嚴格的規律的變量,比如從北京到上海的距離。但是從絕對意義上講,許多通常視為確定性變量的量,本質上都有隨機性,只是由於隨機性干擾不大,以至在所要求的精度之內,不妨把經作為確定性變量來處理。

根據隨機變量其可能取的值的全體的性質,可以把隨機變量分為2大類,一類是離散型隨機變量,比如檢驗100件產品中的次品個數;一類是連續型隨機變量,比如一個燈泡的壽命。但是連續型變量這個概念只是數學上的抽象,因為任何量都有單位,都只能在該單位下量到一定的精度,所以也一定是離散的,比如燈泡的壽命如果只精確到秒,那它的壽命也是可以離散表示的。

研究隨機變量的根本原因是,我們需要研究一些事物身上表現出來的會變動的因子,這些因子的值隨機而定,但可能存在某種規律(比如總是取到某些特殊的值),我們需要研究這些規律(比如分布規律),而對這些因子做預測。

2. 離散型隨機變量的分布

我們研究隨機變量,並不是只關心它能取到哪些值,往往也關心的是它取到某些值的頻率如何,即取到該值的概率。這個特性,我們稱之為分布。

定義2.1

X為離散型隨機變量,其全部的可能值為{a1,a2,},則

 

pi=P(X=ai),i=1,2,

 

稱為X的概率函數。且有下面的性質:

 

pi0,p1+p2+=1

 

X的概率函數給出了:全部概率1是如何在其可能的值之間分配的,所以也把它稱為隨機變量X的“概率分布”。 因為離散型的隨機變量的概率分布通常以一個表的形式給出,所以有時把它稱為X的分布表。

 

可能值概率a1p1a2p2aipi

 

定義2.2

X為一隨機變量,則函數

 

P(Xx)=F(x),<x<

 

稱為X的分布函數。

對離散型隨機變量而言,概率函數與分布函數在下述意義下是等價的。

 

F(x)=P(Xx)={i:aix}pi

 

piF(x)是顯然的,而由F(x)pi,只需注意:

 

F(i)=P(Xi)=P(Xi1)+P(X=i)

 

對於任何隨機變量X,其分布函數F(x)具有下面的一般性質:

1)F(x)是單降非降的:當(x1<x2)時,有F(x1)F(x2)

2)當x時,F(x)1;當x時,F(x)0

研究分布函數的直接原因是可以根據分布函數求概率,另一個原因我覺得是針對於連續型隨機變量,因為它研究取某個值的概率沒有意義,所以更多的關心的一個范圍,比哪燈光壽命1萬小時-1.2萬小時的可能性大小,像這樣范圍內的概率用分布函數更容易求得。

3. 幾個常見的離散型分布

3.1. 二項分布

某事件A在一次試驗中發生的概率為p。現在把這個試驗獨立重復n次,以XA在這n次試驗中發生的次數,則n可能的取值為0,1,,n,我們稱隨機變量X服從二項分布,記為:XB(n,p),同時這種試驗稱為伯努利試驗。

 

pi=b(i;n,p)=(ni)pi(1p)ni,i=0,1,,n

 

X=k表示n次試驗中,事件A恰好發生了k次,那么一共有(nk)種途徑,而且每種途徑發生的概率都為pk(1p)nk(加法公式)。

在研究連續型隨機變量分布后,我們發現二項分布概率分布與高斯分布密度函數曲線一致。

3.2. 泊松分布

若隨機變量X可能的取值為0,1,2,,且概率分布為

 

P(X=i)=eλλi/i!

 

則稱X服從泊松分布,記為XP(λ),此處λ>0是一常數。

Poisson分布是用來描述稀有事件的概率的,比如:一定時間內紅綠燈口發生事故的次數和總機接到電話的次數。

Poisson分布實際上是在n很大,p很小時,二項分布的一個近似:

p很小時,(1p)ep[泰勒展開,取前2項],所以(1p)nkep(nk)epn=eλ

n很大時,bn,k=n(n1)(nk+1)k!pk(1p)nknkpkk!(1p)nk=λkk!eλ

3.3. 超幾何分布

設有N個產品,其中有M個不合格品,若從中不放回地隨機抽取n個,則其中含有的不合格品的個數X服從超幾何分布,記為Xh(n,N,M),超幾何分布的概率分布列為:

 

P(X=k)=(Mk)(NMnk)(Nn),k=0,1,,r

 

其中r=min{M,n},且MN,nN,n,N,M

nN時,即抽取個數n遠小於產品總數N時,每次抽取后體中的不合格率p=M/N改變甚微,所以不放回抽樣,可以近似地看成回抽樣,這里超幾何分布可以用二項分布近似。

 

(Mk)(NMnk)(Nn)(nk)pk(1p)nkp=MN

 

3.4. 幾何分布

在伯努利試驗序列中,記每次試驗中事件A發生的概率為p,如果X為事件A首次出現時的試驗次數,則X可能取值為1,2,,稱X服從幾何分布,記為XGe(p),其分布列為:

 

P(X=k)=(1p)k1p,k=1,2,

 

幾何分布的無記憶性:設XGe(p),則對任意正整數m與n有

 

P(X>m+n|X>m)=P(X>n)

 

上面這個公式表明在一系列的事件中,若前m次實驗中事件A沒有出現,則接下來的n次試驗中A仍未出現的概率只與n有關,似乎忘記了前m次試驗結果。

3.5. 負二項分布

在伯努利試驗序列中,記每次試驗中事件A發生的概率為p,如果X為事件A第r次出現時的試驗次數,則X可能的取值為r,r+1,,r+m,,稱X服從負二項分布或巴斯卡分布,記為XNb(r,p),概率分布為:

 

P(X=k)=(k1r1)pr(1p)kr,k=r,r+1,

 

4. 連續型隨機變量分布

對於連續型變量的概率分布,不能用像離散型變量那種方法去描述。原因在於,這種變量的取值充滿一個區間,無法一一排出。若指定一個值a,則變量X恰好是a一絲不差,事實上不可能,即,對於連續型隨機變量X而言,在區間內任意一點的概率P(X=xi)=0,但是你要注意雖然概率為0,但是並不是說事件X=xi是不可能事件。

刻畫連續型隨機變量的概率分布的一個方法是利用概率分布函數,但是在理論和實用上更方便因則更常用的方法,是使用所謂“概率密度函數”或簡稱密度函數。

定義4.1

設連續性隨機變量X有概率分布函數F(x),則F(x)的層數f(x)=F(x),稱為X的概率密度函數。

連續型隨機變量X的密度函數f(x)都具有以下三條基本性質:

1)f(x)0

2)f(x)dx=1

3)對任何常數a<bP(aXb)=F(b)F(a)=ba(x)dx

4.1. 正態分布

由中心極限定理可知:

一個變量如果是由大量微小的、獨立的隨機因素的疊加結果,那么這個變量一定是正態變量。因此很多隨機變量可以用正態分布描述或近似描述,譬如測量誤差、產品重量、人的身高、年降雨量等。

若隨機變量X的密度函數為

p(x)=12π√σe(xμ)22σ2,<x<+

X服從正態分布或高斯分布。

image

μ=1,σ2=1時,上面的概率密度函數變為

 

f(x)=ex2/2/2π−−√

 

它是正態分布N(0,1)的密度函數。同時被稱為標准正態分布,其密度函數與分布函數通常分別被記為φ(x)Φ(x)。標准正態分布很重要,因為任意的正態分布N(μ,σ2)的計算很容易轉化為標准正態分布N(0,1)

XN(μ,σ2),則Y=(Xμ)/σN(0,1)

4.2. 均勻分布

若隨機變量X的密度函數為

 

p(x)={1ba,0,a<x<b;

 

則稱X服從區間(a,b)上的均勻分布,記作XU(a,b)

4.3. 指數分布

若隨機變量X的密度函數為

 

p(x)={λeλx,0,x0;x<0

 

則稱X服從指數分布,記作XExp(λ)

下圖顯示了指數分布當λ=1(虛線)和λ=2(實線)時的曲線圖。f(x)x=0處不連續。

image

因為指數分布隨機變量只可能取非負實數,所以指數分布被用作各種“壽命”分布,譬如電子元件的壽命,動物的壽命等。

 

P(xXx+h)|X>x)/h=λ,h0

 

上式表明,如果元件在x時尚表現正常,則的X>x時間內失效率為一個常數λ,也就是說元件在任意時刻突然失效的概率跟它使用了多久沒有關系,只與失效率lambda有關。根據后面期望計算得到λ1就是平均壽命。

指數分布描述的是一種無老化的壽命分布,在實際中是不可能的,因而只是一種近似。對一種元器件在使用初期老化現象很小,所以在這個階段指數分布描述了其壽命分布情況。而人在50或60歲之前,生理老化而死亡的因素是次要的。排除那些意外情況,人的壽命在這個階段也是接近指數分布的。

4.4. 威布爾分布

指數分布在壽命問題上忽略了老化問題,如果我們需要考慮老化問題,則顯然失效率真應該隨時間而上升,不能為常數,比如取為一個x的增函數:λxm,那假若分布函數為F(x),則有F(x)/[1F(x)]=λxm,結合F(0)=0,得出:

 

F(x)=1e(λ/m+1)xm+1

 

α=m+1(α>1),並把λ/(m+1)記為λ,得到:

 

F(x)=1eλxα,x>0

 

概率密度函數為:

 

f(x)={λαxα1eλxα,0,x>0;x0

 

實際上指數分布是威布爾分布當α=1時的特例。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM