如何通俗理解貝葉斯推斷與beta分布?


有一枚硬幣(不知道它是否公平),假如拋了三次,三次都是“花”:

 能夠說明它兩面都是“花”嗎?

 1 貝葉斯推斷

按照傳統的算法,拋了三次得到三次“花”,那么“花”的概率應該是:

p=\frac{3}{3}=100\%

但是拋三次實在太少了,完全有可能是運氣問題。我們應該怎么辦?

 托馬斯·貝葉斯(1702-1761),18世紀英國數學家,1742年成為英國皇家學會會員。

貝葉斯認為在實驗之前,應根據不同的情況對硬幣有所假設。不同的假設會得到不同的推斷。

比如和滑不溜手的韋小寶玩。韋小寶可能拿出各種做過手腳的硬幣,讓我們猜不透,只能假設對硬幣一無所知。這種假設之下,我們就只能根據實驗結果來猜測。

因此,實驗結果是“扔三次,三次花”,傾向於認為韋小寶有可能作弊:

 大俠陳近南用的可能是公平硬幣:

 而憨壞的多隆,真的有可能用兩面“花”來和你玩:

 各種假設稱為先驗分布,結合剛才“扔三次,三次花”的實驗數據,推斷出硬幣的后驗分布,這就是貝葉斯推斷:

先驗分布+實驗數據\implies后驗分布

這里補充一下,可能大家覺得再多拋幾次硬幣就可以了,何必弄什么貝葉斯推斷。不過現實生活中有一些事件不是能夠多“拋”幾次的,比如地震、彗星撞擊地球等等。這里只是借着硬幣來討論問題。

\textrm{Beta} 分布

那么問題來了,“先驗分布”,“后驗分布”用數學怎么表示:

\underbrace{先驗分布}_{\color{red}{?}}+實驗數據\implies\underbrace{后驗分布}_{\color{red}{?}}

對於扔硬幣,\textrm{Beta} 分布非常適合用來完成這個任務。

2.1 先驗分布

\textrm{Beta} 分布簡記為(這一節里面的所有細節會在后面給出):

\textrm{Beta}(a,b)

根據a,b 參數的不同,形態各異:

這個特性非常適合用來做先驗分布。比如,在韋小寶面前,我們對硬幣一無所知。

貝葉斯說一無所知也就是意味着任何概率都是一樣的,都是有可能的,所以選用均勻分布(所謂的無信息先驗,可以參看這篇文章):

\textrm{Beta}(1,1) 正好就是均勻分布:

 正直的陳近南,可能用的是公平硬幣,也就是說概率在0、1之間(0表示“字”,1表示“花”),\textrm{Beta}(5,5) 可以表示這樣的分布:

 而憨壞的多隆,可能用了兩面花,也就是說概率可能集中到1附近,\textrm{Beta}(5,1) 可以表示這樣的分布:

 也就是說可以用\textrm{Beta} 分布來模擬各種先驗分布:

  • 一無所知: \textrm{Beta}(1,1)
  • 公平硬幣: \textrm{Beta}(5,5)
  • 兩面花: \textrm{Beta}(5,1)

2.2 后驗分布

\textrm{Beta} 分布來模擬扔硬幣的先驗分布之后,通過貝葉斯推斷,得到的后驗分布依然是\textrm{Beta} 分布:

\textrm{Beta}(a,b)+實驗數據\implies\textrm{Beta}(m,n)

具體到這里:

\textrm{Beta}(a,b)+實驗數據\implies\textrm{Beta}(a+花,n+字)

再具體到韋小寶的情況就是:

\textrm{Beta}(1,1)+(3,0)\implies\textrm{Beta}(4,1)

其中,用(3,0) 來表示實驗數據,意思是3次花,0次字((2,1) 就是2次花,1次字)。

圖像上的變化就是:

 可以看到,作弊的可能性還是比較大的。

陳近南的情況:

結合實驗數據之后,圖像的中心從0.5往0.6方向移動了,作弊可能性有所增加,不過總體來看應該還是公平硬幣的可能性大。

多隆的情況:

更向1集中,作弊的可能性非常高。

3 代數細節

3.1 貝葉斯推斷

貝葉斯推斷:

先驗分布+實驗數據=后驗分布

的應用到二項式分布的數學細節如下。假設實驗數據X|p 服從二項分布:

X|p\sim bin(n,p)

上面的式子根據貝葉斯定理(離散貝葉斯可以參看怎樣用非數學語言講解貝葉斯定理(Bayes theorem)?,連續貝葉斯可以參看這里)可以表示為:

\underbrace{f(p|X=k)}_{后驗分布}=\frac{\overbrace{P(X=k|p)}^{實驗數據}\overbrace{f(p)}^{先驗分布}}{\underbrace{P(X=k)}_{常數}}

其中k 為“花”的次數。分母與實驗數據無關,可以視作常數:

因此,寫成下面這樣更容易看清楚重點(其中\propto 表示兩者之間成比例):

\underbrace{f(p|X=k)}_{后驗分布}\quad\propto\quad\overbrace{P(X=k|p)}^{實驗數據}\underbrace{f(p)}_{先驗分布}

3.2 \textrm{Beta} 分布

\textrm{Beta} 長成這個樣子:

\textrm{Beta}(a,b)=\frac{1}{\textrm{B}(a,b)}x^{{a -1}}(1-x)^{{b -1}}

其中,B 為\textrm{Beta} 函數。

隨着a,b 的變換,\textrm{Beta} 分布形態各異:

3.3 共軛先驗

對於二項式分布,用\textrm{Beta} 分布作為先驗分布,通過貝葉斯推斷之后,后驗分布依然是\textrm{Beta} 分布:

\textrm{Beta}(a,b)+實驗數據\implies\textrm{Beta}(m,n)

這種特性稱為共軛先驗

並且:

\textrm{Beta}(a,b)+實驗數據\implies\textrm{Beta}(a+花,n+字)

關於這點的證明請參看這里,需要科學上網。

文章最新版本在(有可能會有后續更新):如何理解貝葉斯推斷,beta分布?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM