如何通俗理解 beta 分布


如何通俗理解 beta 分布

一、總結

一句話總結:

beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。

 

 

二、如何通俗理解 beta 分布(轉)

轉自:如何通俗理解 beta 分布? - 知乎
https://www.zhihu.com/question/30269898/answer/123261564

 


相信大家學過統計學的都對 正態分布 二項分布 均勻分布 等等很熟悉了,但是卻鮮少有人去介紹beta分布的。

用一句話來說,beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。

舉一個簡單的例子,熟悉棒球運動的都知道有一個指標就是棒球擊球率(batting average),就是用一個運動員擊中的球數除以擊球的總數,我們一般認為0.266是正常水平的擊球率,而如果擊球率高達0.3就被認為是非常優秀的。

現在有一個棒球運動員,我們希望能夠預測他在這一賽季中的棒球擊球率是多少。你可能就會直接計算棒球擊球率,用擊中的數除以擊球數,但是如果這個棒球運動員只打了一次,而且還命中了,那么他就擊球率就是100%了,這顯然是不合理的,因為根據棒球的歷史信息,我們知道這個擊球率應該是0.215到0.36之間才對啊。

對於這個問題,我們可以用一個二項分布表示(一系列成功或失敗),一個最好的方法來表示這些經驗(在統計中稱為先驗信息)就是用beta分布,這表示在我們沒有看到這個運動員打球之前,我們就有了一個大概的范圍。beta分布的定義域是(0,1)這就跟概率的范圍是一樣的。

接下來我們將這些先驗信息轉換為beta分布的參數,我們知道一個擊球率應該是平均0.27左右,而他的范圍是0.21到0.35,那么根據這個信息,我們可以取α=81,β=219

 

 

 

之所以取這兩個參數是因為:

  • beta分布的均值是

     

     

  • 從圖中可以看到這個分布主要落在了(0.2,0.35)間,這是從經驗中得出的合理的范圍。

在這個例子里,我們的x軸就表示各個擊球率的取值,x對應的y值就是這個擊球率所對應的概率。也就是說beta分布可以看作一個概率的概率分布。

那么有了先驗信息后,現在我們考慮一個運動員只打一次球,那么他現在的數據就是”1中;1擊”。這時候我們就可以更新我們的分布了,讓這個曲線做一些移動去適應我們的新信息。beta分布在數學上就給我們提供了這一性質,他與二項分布是共軛先驗的(Conjugate_prior)。所謂共軛先驗就是先驗分布是beta分布,而后驗分布同樣是beta分布。結果很簡單:

 

 

 

其中α0和β0是一開始的參數,在這里是81和219。所以在這一例子里,α增加了1(擊中了一次)。β沒有增加(沒有漏球)。這就是我們的新的beta分布Beta(81+1,219),我們跟原來的比較一下:

 

 

 

可以看到這個分布其實沒多大變化,這是因為只打了1次球並不能說明什么問題。但是如果我們得到了更多的數據,假設一共打了300次,其中擊中了100次,200次沒擊中,那么這一新分布就是:

 

 

 

 

 

 

注意到這個曲線變得更加尖,並且平移到了一個右邊的位置,表示比平均水平要高。

一個有趣的事情是,根據這個新的beta分布,我們可以得出他的數學期望為:

 

 

,這一結果要比直接的估計要小 

 

 

。你可能已經意識到,我們事實上就是在這個運動員在擊球之前可以理解為他已經成功了81次,失敗了219次這樣一個先驗信息。

因此,對於一個我們不知道概率是什么,而又有一些合理的猜測時,beta分布能很好的作為一個表示概率的概率分布。

beta分布與二項分布的共軛先驗性質二項分布

二項分布即重復n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分布服從0-1分布

 

 


在beta分布中,B函數是一個標准化函數,它只是為了使得這個分布的概率密度積分等於1才加上的。

貝葉斯估計

我們做貝葉斯估計的目的就是要在給定數據的情況下求出θ的值,所以我們的目的是求解如下后驗概率:

 

 

 


注意到因為P(data)與我們所需要估計的θ是獨立的,因此我們可以不考慮它。

我們稱P(data|θ)為似然函數,P(θ)為先驗分布

共軛先驗

現在我們有了二項分布的似然函數和beta分布,現在我們將beta分布代進貝葉斯估計中的P(θ)中,將二項分布的似然函數代入P(data|θ)中,可以得到:

 

 

 


我們設a′=a+z,b′=b+N−z
最后我們發現這個貝葉斯估計服從Beta(a’,b’)分布的,我們只要用B函數將它標准化就得到我們的后驗概率:

 

 

 

參考資料:

1.Understanding the beta distribution (using baseball statistics)
2.20 - Beta conjugate prior to Binomial and Bernoulli likelihoods

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM