Beta分布深入理解


一些公式

Gamma函數

(1)

貝葉斯公式

(2)

貝葉斯公式計算二項分布概率

現在有一枚未知硬幣,我們想要計算拋出后出現正面的概率。我們使用貝葉斯公式計算硬幣出現正面的概率。硬幣出現正反率的概率和硬幣兩面的質量有較大關系,由於硬幣未知,我們不知道是否會有人做手腳,於是在實驗之前我們認為硬幣出現正面的概率服從均勻分布,即

(3)

拋硬幣是一個二項試驗,所以n次實驗中出現x次正面的似然概率為

(4)

把(3)(4)式帶入(2)式中,得到

 

考慮到Gamma函數,進一步推算有

(5)

這個分布就是大名鼎鼎的Beta分布。我們記Beta函數為

 

記Beta分布為

 

實際上,拋硬幣的例子中,x為正整數,所以拋n次硬幣,出現x次正面的后驗概率分布為

(6)

可以看到,當a、b為整數時,Beta(a, b)與二項分布Bin(n, p)的表達式有點神似。正是因為這點神似,才讓Beta分布與二項分布成為共軛分布。共軛分布我們在后續會詳細講。

Beta分布特性

我們先看看Beta分布有什么特性。

1、          Beta(1, 1)等於均勻分布

2、          作為概率的概率分布,Beta(a, b)在(0, 1)上對θ積分必定為1。

3、          Beta(a, b)同時能作為先驗分布和后驗分布,必定能夠模擬各種概率分布情況。

 

如上圖,Beta分布可以模擬出以(0, 1)上任意點為峰值的曲線,這表明Beta分布可以模擬極大似然法求出的任意最大值點概率值。

Beta分布的統計例子

問題:隨機變量,把這n個隨機變量排序后得到順序統計量,然后請問的分布是什么。

為解決這個問題,可以嘗試計算落在區間[x, x+Δx]的概率。即求下述式子的值:

 

首先,把 [0,1] 區間分成三段 [0, x),[x, x+Δx],(x+Δx, 1],然后考慮下簡單的情形:即假設n 個數中只有1個落在了區間 [x, x+Δx]內,由於這個區間內的數X(k)是第k大的,所以[0, x)中應該有 k - 1 個數,(x+Δx, 1] 這個區間中應該有n - k 個數。如下圖所示:

 

從而問題轉換為下述事件E:

 

 對於上述事件E,有:

 

其中,o(Δx)表示Δx的高階無窮小。顯然,由於不同的排列組合,即n個數中有一個落在 [x, x+Δx]區間的有n種取法,余下n - 1個數中有k - 1個落在[0, x)的有種組合,所以和事件E等價的事件一共有個。

如果有2個數落在區間[x, x+Δx]呢?如下圖所示:

 

類似於事件E,對於2個數落在區間[x, x+Δx]的事件E':

 

有:

 

從上述的事件E、事件E'中,可以看出,只要落在[x, x+Δx]內的數字超過一個,則對應的事件的概率就是 o(Δx)。於是乎有:

 

從而得到的概率密度函數為:

 

對比公式(6),可以看到上式正是a、b為整數狀態下的Beta分布。

對於,我們很容易計算

 

共軛分布

在貝葉斯概率理論中,如果后驗概率P(θ|x)和先驗概率p(θ)滿足同樣的分布律,那么,先驗分布和后驗分布被叫做共軛分布,同時,先驗分布叫做似然函數的共軛先驗分布

文章開頭的演算中,我們已經知道使用Beta(1, 1)作為先驗分布,結合貝葉斯公式和二項分布似然函數,計算出的后驗分布也為Beta分布。

實際上,結合公式(2)(4)(5),我們很容易得到

Beta(a, b) + 實驗數據(事件A m次,非事件A n) ~ Beta(a + m, b + n)

 

參考:

https://blog.csdn.net/ccnt_2012/article/details/81113923

http://www.360doc.com/content/16/0428/10/478627_554452907.shtml#

https://www.zhihu.com/question/21134457


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM