先驗概率、似然函數與后驗概率


先驗概率

Prior probability

 

在貝葉斯統計中,先驗概率分布,即關於某個變量 p 的概率分布,是在獲得某些信息或者依據前,對 p 的不確定性進行猜測。例如, p 可以是搶火車票開始時,搶到某一車次的概率。這是對不確定性(而不是隨機性)賦予一個量化的數值的表征,這個量化數值可以是一個參數,或者是一個潛在的變量。

 

先驗概率僅僅依賴於主觀上的經驗估計,也就是事先根據已有的知識的推斷,

 

在應用貝葉斯理論時,通常將先驗概率乘以似然函數(likelihoodfunction)再歸一化后,得到后驗概率分布,后驗概率分布即在已知給定的數據后,對不確定性的條件分布。

 

似然函數

 

似然函數(likelihood function),也稱作似然,是一個關於統計模型參數的函數。也就是這個函數中自變量是統計模型的參數。對於結果 x ,在參數集合 θ 上的似然,就是在給定這些參數值的基礎上,觀察到的結果的概率 L(θ|x)=P(x|θ) 。也就是說,似然是關於參數的函數,在參數給定的條件下,對於觀察到的 x 的值的條件分布。

 

似然函數在統計推測中發揮重要的作用,因為它是關於統計參數的函數,所以可以用來評估一組統計的參數,也就是說在一組統計方案的參數中,可以用似然函數做篩選。在非正式的語境下,“似然”會和“概率”混着用;但是嚴格區分的話,在統計上,二者是有不同。

 

不同就在於,觀察值 x 與參數 θ 的不同的角色。概率是用於描述一個函數,這個函數是在給定參數值的情況下的關於觀察值的函數。例如,已知一個硬幣是均勻的(在拋落中,正反面的概率相等),那連續10次正面朝上的概率是多少?這是個概率。

 

而似然是用於在給定一個觀察值時,關於用於描述參數的情況。例如,如果一個硬幣在10次拋落中正面均朝上,那硬幣是均勻的(在拋落中,正反面的概率相等)概率是多少?這里用了概率這個詞,但是實質上是“可能性”,也就是似然了。

 

后驗概率

Posterior probability

 

后驗概率是關於隨機事件或者不確定性斷言的條件概率,是在相關證據或者背景給定並納入考慮之后的條件概率。后驗概率分布就是未知量作為隨機變量的概率分布,並且是在基於實驗或者調查所獲得的信息上的條件分布。“后驗”在這里意思是,考慮相關事件已經被檢視並且能夠得到一些信息。

 

后驗概率是關於參數 θ 在給定的證據信息 X 下的概率: p(θ|x) 。

 

若對比后驗概率和似然函數,似然函數是在給定參數下的證據信息 X 的概率分布: p(x|θ) 。

 

二者有如下關系:

 

我們用 p(θ) 表示概率分布函數,用 p(x|θ) 表示觀測值 x 的似然函數。后驗概率定義如下:

 

 

 

p(θ|x)=p(x|θ)p(θ)p(x)

 





鑒於分母不變,可以表達成如下正比關系:

 

 

 

Posteriorprobability∝Likelihood×Prior probability

 



來先舉一個例子:

如果有一所學校,有60%是男生和40%是女生。女生穿褲子與裙子的數量相同;所有男生穿褲子。一個觀察者,隨機從遠處看到一名學生,觀察者只能看到該學生穿褲子。那么該學生是女生的概率是多少?這里題目中觀察者比如近似眼看直接不清性別,或者從裝扮上看不出。答案可以用貝葉斯定理來算。

用事件 G 表示觀察到的學生是女生,用事件 T 表示觀察到的學生穿褲子。於是,現在要計算 P(G|T) ,我們需要知道:

P(G) ,表示一個學生是女生的概率,這是在沒有任何其他信息下的概率。這也就是我們說的先驗概率。由於觀察者隨機看到一名學生,意味着所有的學生都可能被看到,女生在全體學生中的占比是 40 ,所以概率是 0.4 。

P(B) ,是學生不是女生的概率,也就是學生是男生的概率,也就是在沒有其他任何信息的情況下,學生是男生的先驗概率。 B 事件是 G 事件的互補的事件,這個比例是 60 ,也即 0.6 。

P(T|G) 是在女生中穿褲子的概率,根據題目描述,是相同的 0.5 。這也是 T 事件的概率,given G 事件。

P(T|B) 是在男生中穿褲子的概率,這個值是1。

P(T) 是學生穿褲子的概率,即任意選一個學生,在沒有其他信息的情況下,TA穿褲子的概率。如果要計算的話,那可以計算出所有穿褲子的學生的數量,除以總數,總數可以假設為常數 C ,但是最后會被約去。或者根據全概率公式 P(T)=P(T|G)P(G)+P(T|B)P(B) 計算得到 P(T)=0.5×0.4+1×0.6=0.8 。

基於以上所有信息,如果觀察到一個穿褲子的學生,並且是女生的概率是

 

 

P(G|T)=P(T|G)P(G)P(T)=0.5×0.40.8=0.25.

 




這就是貝葉斯公式的一個示例,如果是兩個相關的屬性,我們只知道其中一些的概率分布情況,就可以根據貝葉斯公式來計算其他的一些后驗概率的情況。

 

 極大似然估計和貝葉斯估計

 

極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點。頻率派認為,參數是客觀存在的,只是未知而矣。因此,頻率派最關心極大似然函數,只要參數求出來了,給定自變量X,Y也就固定了,極大似然估計如下所示:

D表示訓練數據集,是模型參數

相反的,貝葉斯派認為參數也是隨機的,和一般隨機變量沒有本質區別,正是因為參數不能固定,當給定一個輸入x后,我們不能用一個確定的y表示輸出結果,必須用一個概率的方式表達出來,所以貝葉斯學派的預測值是一個期望值,如下所示:

其中x表示輸入,y表示輸出,D表示訓練數據集,是模型參數

 

  該公式稱為全貝葉斯預測。現在的問題是如何求(后驗概率),根據貝葉斯公式我們有:

  可惜的是,上面的后驗概率通常是很難計算的,因為要對所有的參數進行積分,不能找到一個典型的閉合解(解析解)。在這種情況下,我們采用了一種近似的方法求后驗概率,這就是最大后驗概率。

  最大后驗概率和極大似然估計很像,只是多了一項先驗分布,它體現了貝葉斯認為參數也是隨機變量的觀點,在實際運算中通常通過超參數給出先驗分布。

  從以上可以看出,一方面,極大似然估計和最大后驗概率都是參數的點估計。在頻率學派中,參數固定了,預測值也就固定了。最大后驗概率是貝葉斯學派的一種近似手段,因為完全貝葉斯估計不一定可行。另一方面,最大后驗概率可以看作是對先驗和MLE的一種折衷,如果數據量足夠大,最大后驗概率和最大似然估計趨向於一致,如果數據為0,最大后驗僅由先驗決定。

 

參考資料:

 [1] Machine learning: a probabilistic perspective 第三章

 [2]Andrew Ng講義,Regularization and model selection

    http://v.163.com/special/opencourse/machinelearning.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM