本文主要介紹三類參數估計方法-最大似然估計MLE、最大后驗概率估計MAP及貝葉斯估計。
個人認為:三個參數估計的方法可以總結為如下:
然后就可以通過這個公式來求解最大似然估計MLE、最大后驗估計MAP和貝葉斯估計了。
最大似然估計:實際上是求了紅線框起來的部分。認為參數是固定的
最大后驗估計:,實際上是去求了紅線框起來的部分。比最大似然估計多了一個參數的概率,即我們認為參數也是有概率的。
貝葉斯估計:,求全部,此時不直接估計參數的值,而是允許參數服從一定概率分布。即也要求出p(x)來。
貝葉斯及貝葉斯派思考問題的固定模式
先驗分布 + 樣本信息
后驗分布
上述思考模式意味着,新觀察到的樣本信息將修正人們以前對事物的認知。換言之,在得到新的樣本信息之前,人們對的認知是先驗分布
,在得到新的樣本信息
后,人們對
的認知為
。
一. 頻率學派與貝葉斯學派的區別
在查找“極大似然估計”有關知識點的時候,經常會碰到“頻率學派”和“貝葉斯學派”這兩個雖故事深厚,但是對於我們實際使用參數估計法並沒有什么暖用的詞,然而隨着這兩個詞的曝光增多,它猶如一個沒有解決的問題一樣,潛伏在腦海深處,於是就在網上搜了一些結果,加工處理總結於此處。
知乎上的回答[1]:
簡單地說,頻率學派與貝葉斯學派探討「不確定性」這件事時的出發點與立足點不同。頻率學派從「自然」角度出發,試圖直接為「事件」本身建模,即事件A在獨立重復試驗中發生的頻率趨於極限p,那么這個極限就是該事件的概率。舉例而言,想要計算拋擲一枚硬幣時正面朝上的概率,我們需要不斷地拋擲硬幣,當拋擲次數趨向無窮時正面朝上的頻率即為正面朝上的概率。
貝葉斯學派並不從試圖刻畫「事件」本身,而從「觀察者」角度出發。貝葉斯學派並不試圖說「事件本身是隨機的」,或者「世界的本體帶有某種隨機性」,而只是從「觀察者知識不完備」這一出發點開始,構造一套在貝葉斯概率論的框架下可以對不確定知識做出推斷的方法。
豆瓣上的回答[2]:
這個區別說大也大,說小也小。往大里說,世界觀就不同,頻率派認為參數是客觀存在,不會改變,雖然未知,但卻是固定值;貝葉斯派則認為參數是隨機值,因為沒有觀察到,那么和是一個隨機數也沒有什么區別,因此參數也可以有分布,個人認為這個和量子力學某些觀點不謀而合。
往小處說,頻率派最常關心的是似然函數,而貝葉斯派最常關心的是后驗分布。我們會發現,后驗分布其實就是似然函數乘以先驗分布再normalize一下使其積分到1。因此兩者的很多方法都是相通的。貝葉斯派因為所有的參數都是隨機變量,都有分布,因此可以使用一些基於采樣的方法(如MCMC)使得我們更容易構建復雜模型。頻率派的優點則是沒有假設一個先驗分布,因此更加客觀,也更加無偏,在一些保守的領域(比如制葯業、法律)比貝葉斯方法更受到信任。
結合以上以及其他知乎上的回答,做一個總結,頻率學派認為事物本身冥冥之中是服從一個分布的(至於是什么,只有上帝知道),這個分布的參數是固定的,因此,反過來想,上帝用這個分布制造了一些數據給了頻率學派,頻率學派的出發點是上帝在制造這些數據的時候那個參數是唯一固定的,我們要做的就是考慮哪個值最有可能是那個參數值呢,於是就有了“最大似然”和“置信區間”這樣的概念,從名字就可以看出來他們關心的就是我有多大把握去圈出那個唯一的真實參數。然而貝葉斯學派認為,我們並沒有上帝視角,怎么能夠確定這些數據是用哪個固定參數值造出來的,因此他們關心的是參數空間的每一個值,給這些值一些他們自己認為合理的假設值(先驗分布),然后在去做實驗(證據),不斷地調整自己的假設,從而得到最后結果(后驗分布),但是又反過來想,既然我們不是上帝,那么這個先驗假設又怎么能做出來了呢。
頻率學派太過於看中事實(太現實了),以至於容易被現實欺騙,比如擲硬幣,擲了無數次都是正面,從頻率學派的角度就會認為正面出現的概率為1;貝葉斯學派太過於幻想,以至於想象中的很多東西很難實現,例如很難准確判斷參數的先驗分布。總之,你我都不是上帝,所以也就沒有絕對的孰對孰錯。
有一點需要說明的,條件概率並不能說成是貝葉斯學派的,它只有結合先驗概率並以求后驗概率為目的的時候才能說成是貝葉斯的觀點。
二. 頻率學派的參數估計
1.極大似然估計
極大似然估計(Maximum Likelihood Estimate,MLE),也叫最 大似然估計,經過上述分析我們知道它是頻率學派的思想,也就是為了求自認為的上帝的固定參數的,而盡量使這個參數接近真實。
這里直接貼出[3]中的內容:
1) 離散隨機變量的似然函數:
若總體X屬離散型,其分布律P{X=x}=p(x;θ),θ∈Θ的形式為已知,θ為待估參數,Θ是θ可能的取值范圍,設X1,X2,⋯,Xn是來自X的樣本,則X1,X2,⋯,Xn的聯合概率分布為
設x1,x2,⋯,xn相應的樣本值,易知樣本X1,X2,⋯,Xn取到觀察值x1,x2,⋯,xn的概率,亦即事件{X1=x1,X2=x2,⋯,Xn=xn}發生的概率為
這一概率隨θ的取值而變化,它是θ的函數,L(θ)稱為樣本的似然函數(注意這里x1,x2,⋯,xn都是已知的樣本值,它們都是常數)
在θ可取的范圍內挑選使似然函數L(x1,x2,⋯,xn;θ) 達到最大的參數值θ^ ,作為參數θ的估計值.即取θ^使:
2) 連續隨機變量的似然函數:
若總體X屬連續型,其概率密度f(x;θ),θ∈Θ的形式為已知,θ為待估參數,Θ是θ可能的取值范圍,設X1,X2,⋯,Xn是來自X的樣本,則X1,X2,⋯,Xn的聯合概率密度為
設x1,x2,⋯,xn相應的樣本值,則隨機點X1,X2,⋯,Xn落在點x1,x2,⋯,xn的鄰域(邊長分別為dx1,dx2,⋯,dxn的n維立方體)內的概率近似為
其值隨θ的取值而變化,與離散的情況一樣,取θ的估計值θ^使概率取到最大值,但因子∏ni=1dxi不隨θ而變,故只需考慮函數
的最大值,這里L(θ)就是樣本的似然函數。
3) 最大似然估計一般求解過程:
(1) 寫出似然函數;
(2) 對似然函數取對數,並整理;
(3) 求導數 ;
(4) 解似然方程.
三. 貝葉斯學派的參數估計
1. 最大后驗估計
最大后驗估計(maximum a posteriori estimation,MAP),它與極大似然估計最大的區別就是,它考慮了參數本身的分布,也就是先驗分布。
這里直接貼出[4]中的內容
最大后驗估計是根據經驗數據獲得對難以觀察的量的點估計。與最大似然估計類似,但是最大的不同時,最大后驗估計的融入了要估計量的先驗分布在其中(從第一節分析中我們可以得知這個先驗分布可以理解為人們對事物的認識,也就是觀察者的知識能力,先驗分布的參數我們稱為超參數(hyperparameter)),故最大后驗估計可以看做規則化的最大似然估計。
假設x為獨立同分布的采樣,θ為模型參數,p為我們所使用的模型。那么最大似然估計可以表示為:
現在,假設θ的先驗分布為g。通過貝葉斯理論,對於θ的后驗分布如下式所示:
分母為x的邊緣概率與θ無關,因此最大后驗等價於使分子最大,故目標函數為:
2. 貝葉斯估計
請參考“Bayes估計”
參考:https://www.zhihu.com/question/20587681
其中,先驗信息一般來源於經驗跟歷史資料。比如林丹跟某選手對決,解說一般會根據林丹歷次比賽的成績對此次比賽的勝負做個大致的判斷。再比如,某工廠每天都要對產品進行質檢,以評估產品的不合格率θ,經過一段時間后便會積累大量的歷史資料,這些歷史資料便是先驗知識,有了這些先驗知識,便在決定對一個產品是否需要每天質檢時便有了依據,如果以往的歷史資料顯示,某產品的不合格率只有0.01%,便可視為信得過產品或免檢產品,只每月抽檢一兩次,從而省去大量的人力物力。
而后驗分布一般也認為是在給定樣本
的情況下
的條件分布,而使
達到最大的值
稱為最大后驗估計。
1、最大似然估計MLE
首先回顧一下貝葉斯公式
這個公式也稱為逆概率公式,可以將后驗概率轉化為基於似然函數和先驗概率的計算表達式,即
最大似然估計就是要用似然函數取到最大值時的參數值作為估計值,似然函數可以寫做
由於有連乘運算,通常對似然函數取對數計算簡便,即對數似然函數。最大似然估計問題可以寫成
這是一個關於的函數,求解這個優化問題通常對
求導,得到導數為0的極值點。該函數取得最大值是對應的
的取值就是我們估計的模型參數。
以扔硬幣的伯努利實驗為例子,N次實驗的結果服從二項分布,參數為P,即每次實驗事件發生的概率,不妨設為是得到正面的概率。為了估計P,采用最大似然估計,似然函數可以寫作
得到參數p的最大似然估計值為
可以看出二項分布中每次事件發的概率p就等於做N次獨立重復隨機試驗中事件發生的概率。
如果我們做20次實驗,出現正面12次,反面8次
那么根據最大似然估計得到參數值p為12/20 = 0.6。
2、最大后驗估計MAP
最大后驗估計與最大似然估計相似,不同點在於估計的函數中允許加入一個先驗
,也就是說此時不是要求似然函數最大,而是要求由貝葉斯公式計算出的整個后驗概率最大,即
注意這里P(X)與參數無關,因此等價於要使分子最大。與最大似然估計相比,現在需要多加上一個先驗分布概率的對數。在實際應用中,這個先驗可以用來描述人們已經知道或者接受的普遍規律。例如在扔硬幣的試驗中,每次拋出正面發生的概率應該服從一個概率分布,這個概率在0.5處取得最大值,這個分布就是先驗分布。先驗分布的參數我們稱為超參數(hyperparameter)即
同樣的道理,當上述后驗概率取得最大值時,我們就得到根據MAP估計出的參數值。給定觀測到的樣本數據,一個新的值發生的概率是
下面我們仍然以扔硬幣的例子來說明,我們期望先驗概率分布在0.5處取得最大值,我們可以選用Beta分布即
其中Beta函數展開是
當x為正整數時
Beta分布的隨機變量范圍是[0,1],所以可以生成normalised probability values。下圖給出了不同參數情況下的Beta分布的概率密度函數
我們取,這樣先驗分布在0.5處取得最大值,現在我們來求解MAP估計函數的極值點,同樣對p求導數我們有
得到參數p的的最大后驗估計值為
和最大似然估計的結果對比可以發現結果中多了這樣的pseudo-counts,這就是先驗在起作用。並且超參數越大,為了改變先驗分布傳遞的belief所需要的觀察值就越多,此時對應的Beta函數越聚集,緊縮在其最大值兩側。
如果我們做20次實驗,出現正面12次,反面8次,那么
那么根據MAP估計出來的參數p為16/28 = 0.571,小於最大似然估計得到的值0.6,這也顯示了“硬幣一般是兩面均勻的”這一先驗對參數估計的影響。
3 貝葉斯估計
貝葉斯估計是在MAP上做進一步拓展,此時不直接估計參數的值,而是允許參數服從一定概率分布。回顧一下貝葉斯公式
現在不是要求后驗概率最大,這樣就需要求,即觀察到的evidence的概率,由全概率公式展開可得
當新的數據被觀察到時,后驗概率可以自動隨之調整。但是通常這個全概率的求法是貝葉斯估計比較有技巧性的地方。
那么如何用貝葉斯估計來做預測呢?如果我們想求一個新值的概率,可以由
來計算。注意此時第二項因子在上的積分不再等於1,這就是和MLE及MAP很大的不同點。
我們仍然以扔硬幣的伯努利實驗為例來說明。和MAP中一樣,我們假設先驗分布為Beta分布,但是構造貝葉斯估計時,不是要求用后驗最大時的參數來近似作為參數值,而是求滿足Beta分布的參數p的期望,有
注意這里用到了公式
當T為二維的情形可以對Beta分布來應用;T為多維的情形可以對狄利克雷分布應用
根據結果可以知道,根據貝葉斯估計,參數p服從一個新的Beta分布。回憶一下,我們為p選取的先驗分布是Beta分布,然后以p為參數的二項分布用貝葉斯估計得到的后驗概率仍然服從Beta分布,由此我們說二項分布和Beta分布是共軛分布。在概率語言模型中,通常選取共軛分布作為先驗,可以帶來計算上的方便性。最典型的就是LDA中每個文檔中詞的Topic分布服從Multinomial分布,其先驗選取共軛分布即Dirichlet分布;每個Topic下詞的分布服從Multinomial分布,其先驗也同樣選取共軛分布即Dirichlet分布。
根據Beta分布的期望和方差計算公式,我們有
可以看出此時估計的p的期望和MLE ,MAP中得到的估計值都不同,此時如果仍然是做20次實驗,12次正面,8次反面,那么我們根據貝葉斯估計得到的p滿足參數為12+5和8+5的Beta分布,其均值和方差分別是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此時求出的p的期望比MLE和MAP得到的估計值都小,更加接近0.5。
綜上所述我們可以可視化MLE,MAP和貝葉斯估計對參數的估計結果如下
個人理解是,從MLE到MAP再到貝葉斯估計,對參數的表示越來越精確,得到的參數估計結果也越來越接近0.5這個先驗概率,越來越能夠反映基於樣本的真實參數情況。
原文地址:http://blog.csdn.net/yangliuy/article/details/8296481
參考文獻
Gregor Heinrich, Parameter estimation for test analysis, technical report
Wikipedia Beta分布詞條 , http://en.wikipedia.org/wiki/Beta_distribution