頻率學派(古典學派)和貝葉斯學派是數理統計領域的兩大流派。
這兩大流派對世界的認知有本質的不同:頻率學派認為世界是確定的,有一個本體,這個本體的真值是不變的,我們的目標就是要找到這個真值或真值所在的范圍;而貝葉斯學派認為世界是不確定的,人們對世界先有一個預判,而后通過觀測數據對這個預判做調整,我們的目標是要找到這個世界的概率分布的最優表達。
本科期間學習的概率論與數理統計更多涉及的是頻率學派的經典統計學觀點,貝葉斯學派的觀點也有接觸,但是難以分清楚二者的區別。所以整理這篇博客,梳理關於這兩個學派的一些知識。
這篇博客從三個方面來整理關於這兩個學派的一些重要知識:
1、頻率學派和貝葉斯學派的區別
2、先驗分布、后驗分布和共軛分布
3、最大似然估計和最大后驗概率估計
一、頻率學派和貝葉斯學派的區別
除了文章開頭那段話以外,還可以從以下幾個方面來理解兩個學派的區別。
1、從三種信息的角度來理解
首先理解三個概念:總體信息、樣本信息和先驗信息。
數理統計學的任務是通過樣本推斷總體。把樣本視為隨機變量時,它有概率分布,稱為總體分布。如果我們已經知道了總體的概率分布,那我們得到的這種信息就叫做總體信息。
另一種信息是樣本信息,就是從總體中抽取的樣本所提供的信息。我們希望通過對樣本的加工、整理,從而對總體的分布或對總體的某些數字特征作出統計推斷。
總體信息和樣本信息放在一起,也稱為抽樣信息。
第三種信息是先驗信息(prior information),就是在抽樣之前,根據經驗和歷史資料,得到的有關統計推斷問題中未知參數的信息。
那么基於總體信息和樣本信息進行統計推斷的理論和方法稱為經典(古典)統計學,它的基本觀點是:把樣本看成是來自於有一定概率分布的總體,所研究的對象是這個總體而不局限於數據本身。
而基於總體信息、樣本信息和先驗信息進行統計推斷的方法和理論則稱為貝葉斯統計學,它與經典統計學的主要區別在於是否利用先驗信息。在使用樣本上也存在差別,貝葉斯統計學重視已出現的樣本,對尚未發生的樣本值不予考慮。於是貝葉斯學派非常重視先驗信息的收集、挖掘和加工,使之形成先驗分布而參與到統計推斷中,以提高統計推斷的效果。
2、從兩個學派的爭論來理解
頻率學派堅持概率的頻率解釋,對數理統計學中的概念、結果和方法性能的評價等都必須在大量重復的意義上去理解。頻率學派對貝葉斯學派的批評主要集中在以下兩點:
(1)主觀概率以及先驗分布的確定。貝葉斯學派提出了主觀概率,把主觀概念理解為主體對事件發生的概率的相信程度,即不同的人對同一事件的概率可以得到不同的結果。而頻率學派認為一個事件的概率要由大量重復試驗下的頻率來解釋,不應該因人而異,必須具有客觀性,而且先驗分布是主觀隨意性的產物,不可以接受。
(2)貝葉斯也要以樣本分布為出發點,而樣本分布通常都是在頻率意義上去解釋的。可是貝葉斯學派在否定頻率學派的同時,卻使用了頻率學派這個工具。
而貝葉斯學派對頻率學派的批評集中在以下兩點:
(1)涉及“頻率解釋”本身。許多應用問題是一次性的,在嚴格或大致相同條件下讓這一個問題重復出現是不可能的。比如預測特朗普當選的概率,預測水災發生的概率,都是不可能在相同條件下重復出現的,不可能通過重復抽樣得到。因此貝葉斯學派認為只能在現有樣本的基礎上去處理問題。
(2)事前規定精度和可靠度不合理。頻率學派基於概率的頻率解釋,所導出的方法(點估計、區間估計和假設檢驗)的精度和可靠度是在事前(抽樣前)就定下的,稱為“事前精度”和“事前可靠度”。貝葉斯學派認為統計推斷的精度和可靠度,應該與實際的樣本值有關,應當采用“事后精度”和“事后可靠度”。
3、從對未知參數的認識上來理解
頻率學派把未知參數θ看成一個未知的固定量,僅把樣本看做隨機變量,而貝葉斯學派把未知參數也看做是隨機變量。
二、先驗分布、后驗分布和共軛分布
貝葉斯統計學與經典統計學的不同之處在於,貝葉斯統計學在統計推斷時除了利用抽樣信息外,還利用參數的先驗信息,所以貝葉斯方法的一個主要問題是如何確定先驗分布。先驗分布的確定有很大的主觀性和隨意性,當先驗分布完全未知或部分未知時,如果人為給定的先驗分布與實際情形偏離較大時,貝葉斯解的性質就比較差。首先來了解先驗分布、后驗分布、共軛分布,這是貝葉斯統計學中才有的概念,然后給出基於共軛分布來計算后驗分布的方法。
1、先驗分布:
參數空間Θ上的任一概率分布都稱為先驗分布(prior distribution)。用π(θ)來表示隨機變量θ的概率函數(當θ為連續型隨機變量時,π(θ)表示θ的密度函數;當θ為離散型隨機變量時,π(θi)表示概率p(θ=θi),i=1,2,...,n)。
先驗分布π(θ)是在抽樣樣本X之前對參數θ可能取值的認識,在獲取樣本之后,由於樣本X中也包含了θ的信息,故人們對θ的認識發生了變化,於是對θ的取值進行調整,就得到了參數θ的后驗分布π(θ|x)。先驗分布的兩種重要類型是無信息先驗分布和共軛先驗分布。
2、后驗分布:
在獲得樣本X后,θ的后驗分布(posterior distribution)就是在給定X=x條件下θ的條件分布,記為π(θ|x)。求后驗分布用的是貝葉斯公式。
(1)連續型
θ為連續型隨機變量時,其后驗分布的密度函數為:
其中,h(x, θ)=f(x|θ)π(θ)是X和θ的聯合密度,f(x|θ)是樣本的概率密度函數。而m(x):
為X的邊緣分布。
(2)離散型
當θ是離散型隨機變量時,先驗分布可用先驗分布列{π(θi),i=1,2,...,n}來表示,這時的后驗分布是如下離散形式:
那么后驗分布可以看做是人們用總體信息和樣本信息(統稱為抽樣信息)對先驗分布作調整的結果,是總體信息、樣本信息和先驗信息的綜合。
3、似然函數和共軛分布
(1)似然函數
對於后驗分布計算公式中的f(x|θ),從不同的角度看有不同的含義:
①概率密度函數:若參數θ已知,而x是未知變量,那么描述的是不同樣本點的概率,叫做概率密度函數;
②似然函數:若x是已經確定的,而參數θ是變量,那么描述的是對於不同的參數θ,某一個樣本出現的概率,一般寫作l(θ|x),叫做參數θ的似然函數。
從上面已知,后驗分布=樣本的密度函數×先驗分布/邊緣分布,也可以看做:后驗分布=似然函數×先驗分布/邊緣分布。
(2)共軛分布
已知后驗分布=似然函數×先驗分布/邊緣分布,那么如果后驗分布與先驗分布有相同的形式,比如都服從貝塔分布,那么就稱似然函數和先驗分布是共軛的,互為共軛分布,先驗分布是似然函數的共軛先驗分布。對照上面的公式,后驗分布為π(θ|x),先驗分布為π(θ),似然函數為f(x|θ),π(θ|x) = f(x|θ) × π(θ) / m(x)。計算后驗分布的概率密度:
如果計算出來的π(θ|x)和π(θ)有相同的分布類型,那么稱f(x|θ)和π(θ)互為共軛分布,π(θ)是f(x|θ)的共軛先驗分布。
(3)共軛分布的證明
要證明先驗分布為樣本概率分布的共軛分布,只要計算后驗分布,然后得出后驗分布與先驗分布形式相同的結論。下面證明泊松分布和伽瑪分布是共軛分布。
(4)常見的共軛分布
二項分布與貝塔分布是共軛分布,多線分布和狄里克雷分布是共軛分布,泊淞分布和伽瑪分布是共軛分布。
而正態分布的共軛分布是正態分布。
4、后驗分布的簡化計算
了解了共軛先驗分布的概念,那么當先驗分布為共軛先驗分布(或無信息先驗分布)時,可用下面的方法來簡化計算后驗分布,其他情形只能用上面求解后驗分布的公式去求。
(1)后驗分布的新表示方法
我們知道,后驗密度的計算公式為:
f(x|θ)是樣本的密度函數,或者說參數θ的似然函數。m(x)為X的邊緣密度,由於m(x)與θ無關,故將1/m(x)看做是一個常數,有
符號∝表示“正比於”,即符號左邊的式子和右邊的式子只差了一個與參數θ無關的常數因子。
(2)后驗密度的簡化計算
於是可以按下面的步驟來簡化后驗分布的求解過程:
① 寫出樣本概率密度函數(θ的似然函數)f(x|θ)的核,即f(x|θ)中僅與θ有關的因子;再寫出先驗密度π(θ)的核,即π(θ)中僅與參數θ有關的因子。
② 寫出后驗密度的核,即:
即“后驗密度的核”是“樣本概率函數的核”和“先驗密度的核”的乘積。
③ 在符號∝右邊添加一個正則化因子(可以與x有關),就可以得到后驗密度:
π(θ|x) = 正則化因子 × {f(x|θ)的核} × {π(θ)的核}
舉個例子,設樣本服從二項分布,即X~B(n, θ),取參數θ的先驗分布為貝塔分布Be(a, b),求θ的后驗分布。
解:已知二項分布與貝塔分布是共軛分布,用簡化的方法來求后驗分布。
樣本X的概率分布為:
那么似然函數(樣本密度函數)的核是θx(1-θ)n-x。
貝塔分布概率密度函數的形式為:
於是參數θ的概率密度函數π(θ)的核為θa-1(1-θ)b-1。
於是得到:
觀察可知,符號最右邊的式子為貝塔分布Be(x+a, n-x+b)的核,又已知二項分布與貝塔分布是共軛分布,於是添加正則化因子,構造貝塔分布的密度函數,得到后驗密度:
三、最大似然估計(MLE)和最大后驗概率估計(MAP)
統計要解決的問題是,手頭有一堆數據,要利用這堆數據去推測模型和參數,而最大似然估計和最大后驗概率估計就是推斷模型和參數的兩種不同方法。
1、最大似然估計
最大似然估計是求參數θ, 使似然函數p(X|θ)最大。頻率學派采用最大似然估計來推斷模型的參數。最大似然估計的含義是根據已經采集到的樣本,希望通過調整模型參數使得這些樣本被選中的概率最大。
樣本的似然函數為p(X|θ),可以理解為已知樣本集合X的情況下,所有樣本點同時出現的概率,是關於參數θ的函數,因此最大似然估計就是要最大化似然函數。
最大似然估計的目標函數為:
2、最大后驗概率估計
最大后驗概率估計則是想求參數θ,使p(x|θ)p(θ)即后驗概率最大。求得的θ不單讓似然函數大,θ本身出現的先驗概率也得大。貝葉斯學派采用最大后驗概率估計來推斷模型的參數。最大后驗概率估計的含義是基於對參數的一個先驗假設,並根據已經收集到的樣本,通過調整參數使得這些樣本被選中的后驗概率最大。模型參數本身滿足某種分布,不再一味地依賴數據樣例。
如果以密度函數來進行計算,最大后驗概率估計的目標函數就是:
3、二者的聯系
最大似然估計比較依賴較大的數據量和大數定律,在樣本量較少時,參數估計的結果容易出現較大偏差。
最大后驗概率估計允許我們把先驗知識加入到估計模型中,這在樣本很少的時候是很有用的。但是隨着樣本量的增大,參數估計的結果主要受數據量的影響,先驗假設的影響會越來越小。
如果參數θ服從於均勻分布U(0,1)時,有先驗概率為p(θ)=1,此時最大似然估計和最大后驗概率估計是等價的。
參考資料:
1、韋來生:《貝葉斯統計》
2、周志華:《機器學習》
3、頻率學派還是貝葉斯學派?
https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78999639
4、詳解最大似然估計(MLE)、最大后驗概率估計(MAP),以及貝葉斯公式的理解
https://blog.csdn.net/u011508640/article/details/72815981
5、極大似然估計,最大后驗概率估計(MAP),貝葉斯估計
https://blog.csdn.net/vividonly/article/details/50722042