1. Gamma函數
首先我們可以看一下Gamma函數的定義:
Gamma的重要性質包括下面幾條:
1. 遞推公式:
2. 對於正整數n, 有
因此可以說Gamma函數是階乘的推廣。
3.
4.
關於遞推公式,可以用分部積分完成證明:
2. Beta函數
B函數,又稱為Beta函數或者第一類歐拉積分,是一個特殊的函數,定義如下:
B函數具有如下性質:
3. Beta分布
在介紹貝塔分布(Beta distribution)之前,需要先明確一下先驗概率、后驗概率、似然函數以及共軛分布的概念。
1. 通俗的講,先驗概率就是事情尚未發生前,我們對該事發生概率的估計。利用過去歷史資料計算得到的先驗概率,稱為客觀先驗概率; 當歷史資料無從取得或資料不完全時,憑人們的主觀經驗來判斷而得到的先驗概率,稱為主觀先驗概率。例如拋一枚硬幣頭向上的概率為0.5,這就是主觀先驗概率。
2. 后驗概率是指通過調查或其它方式獲取新的附加信息,利用貝葉斯公式對先驗概率進行修正,而后得到的概率。
3. 先驗概率和后驗概率的區別:先驗概率不是根據有關自然狀態的全部資料測定的,而只是利用現有的材料(主要是歷史資料)計算的;后驗概率使用了有關自然狀態更加全面的資料,既有先驗概率資料,也有補充資料。另外一種表述:先驗概率是在缺乏某個事實的情況下描述一個變量;而后驗概率(Probability of outcomes of an experiment after it has been performed and a certain event has occured.)是在考慮了一個事實之后的條件概率。
4. 共軛分布(conjugacy):后驗概率分布函數與先驗概率分布函數具有相同形式。
先驗概率和后驗概率的關系為:
Beta分布的概率密度函數為:
隨機變量X服從參數為 α , β的Β分布通常寫作:
Beta分布與Gamma分布的關系為:
在beta分布中,B函數是一個標准化函數,它只是為了使得這個分布的概率密度積分等於1才加上的。后面狄利克雷的B函數也是一樣的目的。
用一句話來說,beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。
Beta分布的期望與方差分別為:
4. Beta分布是二項分布的共軛先驗
這個結論很重要,在實際中應用也相當廣泛。
在這之前,我們先簡單回顧一下伯努利分布與二項分布。
伯努利分布(Bernoulli distribution)有稱為0-1分布,伯努利分布式基於伯努利實驗(Bernoulli trial)而來。
伯努利試驗是只有兩種可能結果的單次隨機試驗,即對於一個隨機變量X來說:
伯努利實驗本質上即為"YES OR NO"的問題。最常見的一個例子就是拋硬幣。
如果進行一次伯努利實驗,假設成功(X=1)的概率為p (0 <= p <= 1),失敗(X=0)的概率為1−p,稱隨機變量X服從伯努利分布。
二項分布(Binomial distribution)是n重伯努利試驗成功次數的離散概率分布。
如果試驗E是一個n重伯努利試驗,每次伯努利試驗的成功概率為p,X代表成功的次數,則X的概率分布是二項分布,記為X~B(n,p),其概率質量函數為:
從上面的定義很明顯可以看出,伯努利分布是二項分布在n=1時的特例。
二項分布使用最廣泛的例子就是拋硬幣了,假設硬幣正面朝上的概率為p,重復扔n次硬幣,k次為正面的概率即為一個二項分布概率。
在實驗數據較少的情況下,如果我們直接用極大似然估計,二項分布的參數可能會出現過擬合的現象。比如,扔硬幣三次都是正面,那么最大似然法預測以后的所有拋硬幣結果都是正面。為了避免這種情況的發生,可以考慮引入先驗概率分布p(μ)來控制參數μ,防止過擬合現象的發生。那么我們應該如何選擇p(μ)?
前面我們提到,先驗概率和后驗概率的關系為:
二項分布的似然函數為:
如果選擇的先驗概率p(μ)也是μ與(1−μ)次方乘積的關系,那么后驗概率的分布形式與先驗將一樣,這樣先驗概率與后驗概率就是共軛分布了。
由第三部分,我們知道Beta分布的概率密度函數為:
正好滿足我們上面的要求!所以說,Beta分布式二項式分布的共軛先驗!
5. Multinomial多項式分布
將二項式分布推廣到多項式分布(Multinomial Distribution),二項式分布式n次伯努利實驗,規定了每次的實驗結果只有兩個。現在還是做n次實驗,只不過每次實驗的結果變成了m個,且m個結果發生的概率互斥且和為1,則發生其中一個結果X次的概率就是多項式分布。
扔骰子是典型的多項式分布。骰子有6個面對應6個不同的點數,這樣單次每個點數朝上的概率都是1/6(對應p1~p6,它們的值不一定都是1/6,只要和為1且互斥即可,比如一個形狀不規則的骰子),重復扔n次,如果問有k次都是點數6朝上的概率就是:
而多項式分布的一般概率質量函數為:
將試驗進行N次,記第i種可能發生的次數為mi,其中
簡單推導一下概率質量函數的推導:
k種獨立的取值可能,n次實驗,每種可能的概率為p1, p2, ..., pk。
則第一種被選中m1次,第二種被選中m2次,第k種被選中mk次的概率為:
展開既可以得到上面的結果。
6. Dirichlet狄利克雷分布
前面我們講到Beta分布式二項式分布的共軛先驗,Dirichlet分布則是多項式分布的共軛先驗。
Dirichlet(狄利克雷)同時可以看做是將Beta分布推廣到多變量的情形。概率密度函數定義如下:
其中
為Dirichlet分布的參數。且有:
B(α
類似於Beta函數有以下等式成立:
Dirichlet分布的期望為:
7. Dirichlet分布是Multinomial分布的共軛先驗
多項式分布的似然函數為:
我們使用貝葉斯定理推斷Dirichlet-MultCount共軛關系。對於參數為α的Dirichlet分布,可以用如下公式表示:
這里,表達式如下:
進行了多項式分布實驗后,得到結果n后,后驗分布為:
然后后驗分布其實是一個新的狄利克雷分布:
參數n與α確定后,后驗分布的期望為:
https://blog.csdn.net/bitcarmanlee/article/details/82156281#commentBox