一些公式
Gamma函數
(1)
貝葉斯公式
(2)
貝葉斯公式計算二項分布概率
現在有一枚未知硬幣,我們想要計算拋出后出現正面的概率。我們使用貝葉斯公式計算硬幣出現正面的概率。硬幣出現正反率的概率和硬幣兩面的質量有較大關系,由於硬幣未知,我們不知道是否會有人做手腳,於是在實驗之前我們認為硬幣出現正面的概率服從均勻分布
,即
(3)
拋硬幣是一個二項試驗,所以n次實驗中出現x次正面的似然概率為
(4)
把(3)(4)式帶入(2)式中,得到
考慮到Gamma函數,進一步推算有
(5)
這個分布就是大名鼎鼎的Beta分布。我們記Beta函數為
記Beta分布為
實際上,拋硬幣的例子中,x為正整數,所以拋n次硬幣,出現x次正面的后驗概率分布為
(6)
可以看到,當a、b為整數時,Beta(a, b)與二項分布Bin(n, p)的表達式有點神似。正是因為這點神似,才讓Beta分布與二項分布成為共軛分布。共軛分布我們在后續會詳細講。
Beta分布特性
我們先看看Beta分布有什么特性。
1、 Beta(1, 1)等於均勻分布。
2、 作為概率的概率分布,Beta(a, b)在(0, 1)上對θ積分必定為1。
3、 Beta(a, b)同時能作為先驗分布和后驗分布,必定能夠模擬各種概率分布情況。
如上圖,Beta分布可以模擬出以(0, 1)上任意點為峰值的曲線,這表明Beta分布可以模擬極大似然法求出的任意最大值點概率值。
Beta分布的統計例子
問題:隨機變量,把這n個隨機變量排序后得到順序統計量
,然后請問
的分布是什么。
為解決這個問題,可以嘗試計算落在區間[x, x+Δx]的概率。即求下述式子的值:
首先,把 [0,1] 區間分成三段 [0, x),[x, x+Δx],(x+Δx, 1],然后考慮下簡單的情形:即假設n 個數中只有1個落在了區間 [x, x+Δx]內,由於這個區間內的數X(k)是第k大的,所以[0, x)中應該有 k - 1 個數,(x+Δx, 1] 這個區間中應該有n - k 個數。如下圖所示:
從而問題轉換為下述事件E:
對於上述事件E,有:
其中,o(Δx)表示Δx的高階無窮小。顯然,由於不同的排列組合,即n個數中有一個落在 [x, x+Δx]區間的有n種取法,余下n - 1個數中有k - 1個落在[0, x)的有種組合,所以和事件E等價的事件一共有
個。
如果有2個數落在區間[x, x+Δx]呢?如下圖所示:
類似於事件E,對於2個數落在區間[x, x+Δx]的事件E':
有:
從上述的事件E、事件E'中,可以看出,只要落在[x, x+Δx]內的數字超過一個,則對應的事件的概率就是 o(Δx)。於是乎有:
從而得到的概率密度函數為:
對比公式(6),可以看到上式正是a、b為整數狀態下的Beta分布。
對於,我們很容易計算
共軛分布
在貝葉斯概率理論中,如果后驗概率P(θ|x)和先驗概率p(θ)滿足同樣的分布律,那么,先驗分布和后驗分布被叫做共軛分布,同時,先驗分布叫做似然函數的共軛先驗分布。
文章開頭的演算中,我們已經知道使用Beta(1, 1)作為先驗分布,結合貝葉斯公式和二項分布似然函數,計算出的后驗分布也為Beta分布。
實際上,結合公式(2)(4)(5),我們很容易得到
Beta(a, b) + 實驗數據(事件A m次,非事件A n次) ~ Beta(a + m, b + n)
參考:
https://blog.csdn.net/ccnt_2012/article/details/81113923
http://www.360doc.com/content/16/0428/10/478627_554452907.shtml#