Frequentist VS Bayesian
在機器學習領域分為兩個流派,分別是貝葉斯派和頻率派。兩種學派所基於的理論背景不同,應用場景也不盡相同。本文就以閱讀PRML為背景,對學習所悟進行總結。
對於一些問題,比如類似從盒子中抽取小球的經典問題,我們可以通過多次實驗的方式來計算頻率,並進而估算概率,這種思想是典型的Frequentist的思想;而對於另一些問題,如南極大陸在本世紀末完全融化的可能性,這類事件其不可能被重復出現,因為無法使用頻率統計的思想來進行概率的估計,但是此類事件可以通過一種優雅的、十分廣泛的概率的貝葉斯解釋來進行估計概率。
貝葉斯定理,即:
如上式所述,我們將根據對於數據集D的觀測,並以后驗概率p(D|w)的形式來估計參數w的不確定度。其中,p(D|w)是關於w的似然函數(Likelihood),p(w)是關於w的先驗概率。
在頻率派和貝葉斯派兩種理論派別中,似然然函數p(D|w)是問題的中心所在,但是對於其被運用的方式方面有着本質的區別。
在頻率派中,w被認為是一個固定的數值,其數值的計算是通過對於訓練集的學習和估計。這個思想即神經網絡中常用的:建立模型,選擇損失函數,優化目標函數,將損失降到可以度量范圍內的最小值,從而得到對w參數的估計。
而在貝葉斯派看來,只有通過觀察w的概率分布,才能表示參數的不確定度,即對於w的數值是不確定的。
在頻率派中一個被廣泛使用的用來估計的工具是;最大化似然函數。
貝葉斯派中的一個優勢在於對於先驗知識的包含是逐步上升的。比如,對一枚質地均勻的硬幣進行三次投擲,結果都是反面,則在貝葉斯派的最大化似然函數看來,反面的概率是1. 而對於貝葉斯派來說,由於具有先驗知識(質地均勻,先驗概率為1/2),其運算結果將不會像頻率派一樣極端。
對於B還是F一直以來都會有很大的爭議和爭辯。對於貝葉斯派來說,一個普遍的批評在於先驗分布總是基於數學方便,而不是基於先驗的確信度。即B方法選擇的先驗知識可能並非是一個獨立的事件,因此,在B方法中,如果基於差點的先驗選擇可能會對於一個較差的結果一個較高的可信度。但F方法則不存在該問題,因為F可以使用交叉驗證的方法減少因為選擇先驗(訓練集)而對於模型的影響。
PRML強烈傾向於B方法。
近年來也有一些可以用於大量數據集的B方法被提出。