Beta Distribution


首先思考一個問題:

熟悉棒球運動的都知道有一個指標就是棒球擊球率(batting average),就是用一個運動員擊中的球數除以擊球的總數,我們一般認為0.266是正常水平的擊球率,正常范圍在0.215到0.36,而如果擊球率高達0.3就被認為是非常優秀的。

現在有一個棒球運動員,我們希望能夠預測他在這一賽季中的棒球擊球率是多少。你可能就會直接計算棒球擊球率,用擊中的數除以擊球數,但是如果這個棒球運動員只打了一次,而且還命中了,那么他就擊球率就是100%了,這顯然是不合理的,因為根據棒球的歷史信息,我們知道這個擊球率應該是0.215到0.36之間才對啊。

在這種具有先驗知識的情況下,一種考慮可能是貝葉斯,但是擊球命中與否是對立事件,貝葉斯用於描述兩個事件之間的因果關系。這種已有先驗知識,再去更新統計數據的情況,Beta Distribution可能是最佳選擇了。

 

B分布的理解和使用不需要考慮其數學定義,B分布定義在(0, 1),用B(x; α, β) 表示,其中x是自變量,α, β是hyperparameter,給出α, β就可以確定其形狀。

B分布有一些很實用的性質:其眾數、期望、方差、偏差、峰度等分布特征都由α, β確定;當初始參數α, β確定以后,可以在先驗的基礎上開始統計,並更新概率分布。回到最開始的問題。

對於這個問題,我們可以用一個二項分布表示(一系列成功或失敗),一個最好的方法來表示這些經驗(在統計中稱為先驗信息)就是用beta分布,這表示在我們沒有看到這個運動員打球之前,我們就有了一個大概的范圍。beta分布的定義域是(0,1)這就跟概率的范圍是一樣的。

接下來我們將這些先驗信息轉換為beta分布的參數,我們知道一個擊球率應該是平均0.27左右,而他的范圍是0.21到0.35,那么根據這個信息,我們可以取α=81,β=219。

 

之所以取這兩個參數是因為:

  • beta分布的均值是\frac{\alpha}{\alpha+\beta}=\frac{81}{81+219}=0.27
  • 從圖中可以看到這個分布主要落在了(0.2,0.35)間,這是從經驗中得出的合理的范圍。

在這個例子里,我們的x軸就表示各個擊球率的取值,x對應的y值就是這個擊球率所對應的概率。也就是說beta分布可以看作一個概率的概率分布。

那么有了先驗信息后,現在我們考慮一個運動員只打一次球,那么他現在的數據就是”1中;1擊”。這時候我們就可以更新我們的分布了,讓這個曲線做一些移動去適應我們的新信息。beta分布在數學上就給我們提供了這一性質,他與二項分布是共軛先驗的(Conjugate_prior)。所謂共軛先驗就是先驗分布是beta分布,而后驗分布同樣是beta分布。結果很簡單:

\mbox{Beta}(\alpha_0+\mbox{hits}, \beta_0+\mbox{misses})

 這個新的B分布的數學期望,可以認為是該運動員最新的命中率。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM