【機器學習基本理論】詳解最大后驗概率估計(MAP)的理解


【機器學習基本理論】詳解最大后驗概率估計(MAP)的理解

 

https://blog.csdn.net/weixin_42137700/article/details/81628065

 

最大似然估計(Maximum likelihood estimation, 簡稱MLE)和最大后驗概率估計(Maximum a posteriori estimation, 簡稱MAP)是很常用的兩種參數估計方法,如果不理解這兩種方法的思路,很容易弄混它們。 下文將詳細說明MLE和MAP的思路與區別。上篇講解了MLE的相應知識。【機器學習基本理論】詳解最大似然估計(MLE)、最大后驗概率估計(MAP),以及貝葉斯公式的理解 下面講解最大后驗概率MAP的相關知識。 1最大后驗概率估計 最大似然估計是求參數theta, 使似然函數p(x0|theta)最大。 最大后驗概率估計則是想求theta使得p(x0|theta)p(theta)最大。

求得的theta不單單讓似然函數大,theta自己出現的先驗概率也得大。 (這有點像正則化里加懲罰項的思想,不過正則化里是利用加法,而MAP里是利用乘法)

MAP其實是在最大化p(theta|x0)=p(x0|theta)p(theta)/p(x0),不過因為x0是確定的(即投出的“反正正正正反正正正反”),p(x0)是一個已知值,所以去掉了分母p(x0) (假設“投10次硬幣”是一次實驗,實驗做了1000次,“反正正正正反正正正反”出現了n次, 則p(x0)=n/1000總之,這是一個可以由數據集得到的值)。最大化p(theta|x0)的意義也很明確,x0已經出現了,要求theta取什么值使p(theta|x0)最大。順帶一提,p(theta|x0)即后驗概率,這就是“最大后驗概率估計”名字的由來。

對於投硬幣的例子來看,我們認為(”先驗地知道“)theta取取0.5的概率很大,取其他值的概率小一些。我們用一個高斯分布來具體描述我們掌握的這個先驗知識,例如假設p(theta)為均值0.5,方差0.1的高斯函數,如下圖:

 

則p(x0|theta)p(theta)的函數圖像為:

  注意,此時函數取最大值時,theta取值已向左偏移,不再是0.7。實際上,在theta=0.558時函數取得了最大值。即,用最大后驗概率估計,得到theta=0.558。

最后,那要怎樣才能說服一個貝葉斯派相信theta=0.7呢? 你得多做點實驗。。

如果做了1000次實驗,其中700次都是正面向上,這時似然函數為:  

如果仍然假設p(theta)為均值0.5,方差0.1的高斯函數,則p(x0|theta)p(theta)的函數圖像為:  

在theta=0.696,p(x0|theta)p(theta)取得最大值。

這樣,就算一個考慮了先驗概率的貝葉斯派,也不得不承認得把theta估計在0.7附近了。

PS. 要是遇上了頑固的貝葉斯派,認為p(theta=0.5)=1,那就沒得玩了。。 無論怎么做實驗,使用MAP估計出來都是theta=0.5。這也說明,一個合理的先驗概率假設是很重要的。(通常,先驗概率能從數據中直接分析得到)

2最大似然估計和最大后驗概率估計的區別 相信讀完上文,MLE和MAP的區別應該是很清楚的了。 MAP就是多個作為因子的先驗概率p(theta)。 或者,也可以反過來,認為MLE是把先驗概率p(theta)認為等於1,即認為theta為均勻分布,無論theta為何值,p(theta)均為1 文章地址:http://blog.csdn.net/u011508640/article/details/72815981


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM