概率筆記5——概率分布


  分布函數(英文Cumulative Distribution Function, 簡稱CDF),是概率統計中重要的函數,正是通過它,可用數學分析的方法來研究隨機變量。分布函數是隨機變量最重要的概率特征,分布函數可以完整地描述隨機變量的統計規律,並且決定隨機變量的一切其他概率特征。

從事件到函數

  我們已經很清楚函數的概念,g = g(x)是一個典型的函數,輸入數據經過g(x)的處理后得到了一個新的輸出g。在概率當中,也存在類似的定義。

  例如一個樣本空間有一系列隨機事件Ω = {ω1, ω1, ω1 …ωn},那么將存在一個函數,這個函數把事件映射為一個實數:

  這樣做是為了用數學去表達事件——函數最終將轉換為數,有了數,我們就能利用很多已知的工具去處理概率問題。如果Ω表示球隊的比賽事件,那么Ω = {勝,負,平},一個典型的X轉換就是:勝→1,負→-1,平→0。二進制的0和1也能表達很多諸如開/關、升/降等事件。

分布函數

  有了函數X,就可以進而將事件的概率轉換為普通的函數,於是有了分布函數的定義:

 

  F(x)就是分布函數,它表示X ≤ x的概率。舉例來說,如果一個人的身高是1.75m,這個人的身高在全國的分布就是所有小於等於1.75m的人在全國的比例。看起來英文Cumulative Distribution Function更容易理解,F(x)就是概率的積累。

  需要注意的是,此處的大X和小x都是一個具體的實數,小x的取值范圍是 -∞ ≤ x ≤ +∞,這是一個什么梗?

  這要從坐標系說起了。

  上圖中的曲線是f(x),-∞ < x < +∞,對於任意的x,都有一個y能夠對應。同樣,對於概率分布函數F(x)來說,我們也希望對任意的x都能找到對應的y,也就是P(X≤x)。別忘了,我們的目的是將事件轉換為數,從而將概率轉換為函數。從概率的角度來講,-∞ < x < +∞表示了概率的全部事件。

離散型分布

離散事件

  離散型事件指事件可能的取值是有限個或可列無窮個。

  有限個好理解,比如骰子的結果。可列無窮個有意思了,它指值能夠例舉出來,但是永遠無法全部列舉,自然數和整數就是這樣的例子。

  這里有個好玩的事,整數是無窮的,自然數也是無窮的,那么整數和自然數的數量哪個更多呢?

  第一感覺是整數更多,多了一倍。但真相是,二者的數量一樣多。這就要了解數學中是怎樣定義“一樣多”的。在數學中,如果兩個集合能夠產生一一對應的關系,我們就可以說這兩個集合的數據一樣多。這個對應關系可以用一個函數表示,比如整數和自然數的對應可以是這樣:

 

  無論哪一個整數,都能在自然數中找到唯一的對應。

  整數和實數呢?實數的個數要遠遠大於整數,它們無法產生一一對應,因為每兩個實數間都有無窮多個數。這就又引出一個問題,實數的個數與[-1, 1]區間內的實數個數哪個多呢?第一感覺又是實數多,但實際上二者的個數相等。這個匪夷所思的問題可以用下圖表示,說明二者一一對應:

  上圖是一個數軸,數軸上的每一個點都代表一個實數;現在把-1到1之間的線段的向上彎折,得到一個與0點相切,弧長是2的紅色圓弧。現在,把數軸上的任意點與弧連線,都可以在弧上找到唯一點:

 

  由此可見,二者的數量相等,准確的說是“勢”相等。

分布函數

  離散事件的每個取值都對應一個概率,它的分布率大概長成這個樣子:

 

  它的分布函數:

  在所有的分布函數中,x的取值范圍都是關鍵,它強調了“事件”到“函數”的轉換。

  在射擊比賽中,有大、中、小三類目標供選擇,各類目標的得分和命中率如下:

  其中score對應了x的取值,rate對應分布值F(x),F(x)的分布曲線如下:

 

  這里又一次強調了分布函數F(x)中x的取值是從-∞到+∞。當x<1時,表示沒有任何目標可供射擊,命中率是0; x ≤ 2時,命中中型和中型以下目標的概率是F(2) = P(middle) + P(small) = 1/3 + 1/2 = 5/6;x ≥ 5時,變成了必然事件,F(x) = 1。

  我們看到F(x)的取值是[0, 1],這也是概率的取值范圍;這種階梯式的函數就是離散型隨機事件的分布函數。

連續型分布

連續事件

  相對於離散事件,連續事件就是隨機事件是連續型的事件。這是通俗解釋,看起來沒錯,但並不精確。

  在精確定義之前先來看一個好玩的例子:一個人會在9:00~10:00到達某地,他恰巧在9:30抵達的概率是多少?

  似乎很簡單,但實際上不是那么回事,問題出在時間的度量上。前面說過,0~1之間的實數有無窮多個,同樣,由於我們並沒有指定時間的最小刻度,所以9:00~10:00之間的也有無窮多個,這相當於樣本空間的事件有無窮個。如果用幾何概型思考——將概率轉換為長度的比例——我們會發現,9:30是時間軸上的一點,點的長度是0,所以P{9:30抵達} = 0。過去一直認為0概率是不肯能發生的事件,而現在看來並不是,因為確實存在9:30抵達的可能,這有點像極限問題了,極限是0,說明無限接近0,但始終不是0。

  似乎出現悖論了,無數個點加在一起變成了線,點的概率又是0,那么連續事件的分布豈不是無數個0相加最終還是0?

  解釋前先寫出連續事件的精確定義:對於某一X,如果存在非負可積函數f(x),使得

 

  則稱X是連續型隨機事件。

  答案就是使用積分。使用f(t)dt就可以計算微小的面積:

 

  關於微分和積分的相關知識可參考:《單變量微積分》中的相關章節。

  現在概率終於和積分聯系在一起了,前方的視野也更加廣闊起來。

分布函數

  以正態分布為例:

  f(t)被稱為概率密度,或概率密度函數;F(x)表示f(t)與x軸圍成的面積:

 

  由此可以看出,連續型隨機事件的分布函數也一定是連續的。

 


作者:我是8位的

出處:http://www.cnblogs.com/bigmonkey

本文以學習、研究和分享為主,如需轉載,請聯系本人,標明作者和出處,非商業用途! 

掃描二維碼關注公眾號“我是8位的”


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM