獨立同分布隨機事件
對於n次獨立同分布隨機事件實驗,我們如何計算隨機事件概率?舉個例子,我們拋同一枚硬幣100次,出現正面52次,反面48次,那拋硬幣正面的概率是多少?
頻率派思想
頻率派認為事件A的概率(如例子中拋硬幣出現正面的概率)是確定的,只是我們不知道,當進行大量重復實驗后,事件A發生的概率大致上等於實驗中A發生的頻率,這也是大數定律的思想。如下,μ表示事件A出現次數的期望
實際應用中,我們難以進行大量重復事件,但頻率派認為,我們有理由相信當前的實驗結果是在概率下最有可能出現的結果。似然函數表示出現當前實驗結果的概率函數
x為實驗結果已知,我們求出極值點下的值,則求出了最大似然概率,頻率派即用
表示事件A的概率。
頻率派思想是自然而然的思想,我們在生活中也不經意間使用。例如上面例子,我們有
兩邊取對數
極值點下對求導等於0,很容易計算出
為0.52。可以看到,最大化似然函數得到的概率
和直接使用大數定律一致。
貝葉斯思想
貝葉斯認為,由於我們的實驗次數永遠不會無窮,所以我們不應該給出確定的值。就像上述例子中,僅僅進行了100次實驗,概率派則認為拋硬幣出現正面的概率為0.52,這是荒謬的。0.52和大數定律的結果一致,但是100次顯然距離無窮太遠。(實際上頻率派引入了置信度,他們並不認為0.52是正確值,0.52在一定概率下是正確的)
所以,貝葉斯提出了貝葉斯公式,他認為,在我們有限的觀察次數下,事件A出現的概率應該服從一定的概率分布。在上述例子中,貝葉斯認為拋硬幣出現正面概率為0.5左右的可能性為0.8,但是拋硬幣出現正面得概率為0.2或0.8的概率可能還有0.2(這里的概率大概寫的,不要當真)。貝葉斯公式如下
離散情況下,貝葉斯公式這樣表示
這里,表示目標概率(我們想要得到的事件概率),
表示實驗前目標概率的概率分布(先驗概率分布),
表示實驗后目標概率的概率分布(后驗概率分布),
表示實驗中得到的事件概率(
使用似然函數計算)。再次強調,貝葉斯想要計算的是概率的概率分布。
第n次實驗的后驗概率為第n + 1次實驗的先驗概率,首次實驗開始之前的先驗概率函數可以根據經驗設定,如果沒有經驗可以參考,我們不妨假設服從均勻分布,即
實際上,當進行的重復實驗足夠多,最初的先驗概率對最終的結果影響較小。
這里可以看到貝葉斯思想的另外一個精髓,貝葉斯概率的概率分布隨着實驗的進行不斷波動,並且隨着實驗次數的增加,概率的概率分布將會慢慢收斂,最終滿足大數定律。
上圖表示隨着拋硬幣實驗的不斷進行,后驗概率分布圖像的變化。
貝葉斯思想的優勢
1、 對於某一種獨立重復隨機事件,如果采用最大似然法計算出兩個極值點,例如99、100,此時最大似然法只會取最大值點100的概率值。但是使用貝葉斯思想,我們就可以同時考慮極值點99、100的概率。
在實際應用中,事件A的概率可能不是一成不變的(實驗難以重復獨立,或者事件A的概率就是隨機的)。比如考慮一個人生病的概率,幼年時生病概率高,中年時生病概率低,老年時生病概率高,或者冬天生病概率高,夏天生病概率低。頻率派思想認為的概率是事件A的固定屬性在這些狀況下就不適用。嚴格的來說,任何場景下你都無法保證事件A概率
是固定的。
2、 頻率派使用的最大似然法,只能得到概率的最大似然估計。但是通過貝葉斯公式得到概率后驗分布函數后,我們可以進行各種處理,比如取概率期望,概率中位數,概率極大值等等。
3、 下面的章節我們還可以看到基於貝葉斯公式的共軛分布,他對於后驗概率的計算十分方便,這也是貝葉斯公式的一大優勢。
參考:
https://www.zhihu.com/question/21134457