機器學習(二十五)— 極大似然估計(MLE)、貝葉斯估計、最大后驗概率估計(MAP)區別


   最大似然估計(Maximum likelihood estimation, 簡稱MLE)和最大后驗概率估計(Maximum aposteriori estimation, 簡稱MAP)是很常用的兩種參數估計方法。

 1、最大似然估計(MLE)

   在已知試驗結果(即是樣本)的情況下,用來估計滿足這些樣本分布的參數,把可能性最大的那個參數作為真實的參數估計。

   也就是說,最大似然估計,就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值(模型已知,參數未知)。

 (1)基本思想

  當從模型總體隨機抽取n組樣本觀測值后,最合理的參數估計量應該使得從模型中抽取該n組樣本觀測值的概率最大,而不是像最小二乘估計法旨在得到使得模型能最好地擬合樣本數據的參數估計量。

  例如,我們知道這個分布是正態分布,但是不知道均值和方差;或者是二項分布,但是不知道均值。 最大似然估計(MLE,Maximum Likelihood Estimation)就可以用來估計模型的參數。MLE的目標是找出一組參數,使得模型產生出觀測數據的概率最大。

(2)模型推導

   假設樣本集D={x1 、x2 、…、xn},假設樣本之間都是相對獨立的,注意這個假設很重要!於是便有: 

 

  所以假設似然函數為:

  接下來我們求參的准則便是如名字一樣最大化似然函數

  如果求得的θ 是參數空間中能使似然函數最大的取值,則θ是最可能的參數取值,即最大的似然估計值。

  似然函數取對數:就是防止先驗概率為0,那么上面的L(θ|D)整個式子便都成0 了,那肯定是不行的啊,不能因為一個數據誤差影響了整個數據的使用。同時那么多先驗概率相乘,可能出現下溢出。所以引入拉普拉斯修正,也就是取對數ln,想必大家在數學中都用過這種方法的。

  所以最大化的目標便是:

  之后對參數求偏導,偏導數為0,求解最優值。

   求最大似然函數估計值的一般步驟: 
(1) 寫出似然函數
(2) 對似然函數取對數,並整理
(3) 求導數
(4) 解似然方程

(3)推導舉例

  我們拿這枚硬幣拋了10次,得到的數據(x0)是:反正正正正反正正正反。我們想求的正面概率θθ是模型參數,而拋硬幣模型我們可以假設是 二項分布。那么,出現實驗結果x0(即反正正正正反正正正反)的似然函數是多少呢?

  對似然函數求對數,得到對數似然函數后對參數θ求導,令導數為0,求解θ的值。此處求得θ=0.7。

 (4)最大似然估計的特點:

        1.比其他估計方法更加簡單;

        2.收斂性:無偏或者漸近無偏,當樣本數目增加時,收斂性質會更好;

        3.如果假設的類條件概率模型正確,則通常能獲得較好的結果。但如果假設模型出現偏差,將導致非常差的估計結果。

 2、貝葉斯估計

   貝葉斯統計的重點:參數未知且不確定,因此作為隨機變量,參數本身也是一個分布,同時,根據已有的信息可以得到參數θ的先驗概率,根據先驗概率來推斷θ的后驗概率。 

  不同於ML估計,不再把參數θ看成一個未知的確定變量,而是看成未知的隨機變量,通過對第i類樣本Di的觀察,使概率密度分布P(Di|θ)轉化為后驗概率P(θ|Di),再求貝葉斯估計。

  貝葉斯估計是在MAP上做進一步拓展,此時不直接估計參數的值,而是允許參數服從一定概率分布。極大似然估計和極大后驗概率估計,都求出了參數theta的值,而貝葉斯推斷則不是,貝葉斯推斷擴展了極大后驗概率估計MAP(一個是等於,一個是約等於)方法,它根據參數的先驗分布P(theta)和一系列觀察X,求出參數theta的后驗分布P(theta|X),然后求出theta的期望值,作為其最終值。另外還定義了參數的一個方差量,來評估參數估計的准確程度或者置信度。

   貝葉斯估計:從參數的先驗知識和樣本出發。期望后延信息在真實的θ值處有一個尖峰。

 

  貝葉斯公式:

 

  根據特征條件獨立性假設:其中X 是多個特征的矩陣,Y 是類別標簽

  我們可以計算出任一樣本x屬於類別的概率,選擇其中概率最大者便可作為其分類的類標。

基本步驟:

3、似然函數和概率函數

  概率研究的問題是,已知一個模型和參數,怎么去預測這個模型產生的結果的特性(例如均值,方差,協方差等等)。統計是,有一堆數據,要利用這堆數據去預測模型和參數。

  概率是已知模型和參數,推數據。統計是已知數據,推模型和參數。

  在統計里面,似然函數和概率函數卻是兩個不同的概念(其實也很相近就是了)。

  對於這個函數:P(x|θ)。輸入有兩個:x表示某一個具體的數據;θ表示模型的參數。

  如果θ是已知確定的,x是變量,這個函數叫做概率函數(probability function),它描述對於不同的樣本點x,其出現概率是多少。

  如果x是已知確定的,θ是變量,這個函數叫做似然函數(likelihood function), 它描述對於不同的模型參數,出現x這個樣本點的概率是多少。

4、最大后驗概率估計(MAP)

     最大似然估計是求參數θ, 使似然函數P(x0|θ)最大。

  最大后驗概率估計則是想求θ使P(x0|θ)P(θ)最大。求得的θ不單單讓似然函數大,θ自己出現的先驗概率也得大。 

  最大后驗概率估計是最大似然和貝葉斯估計的結合,

 

  其實如果MAP的后驗概率中P(θ) = 1,就是最大似然概率。也就是說最大似然概率默認未知參數 θ 取值都是等可能性的,而最大后驗概率在參數估計時考慮了參數的先驗概率。

 4、對比總結

  1. 極大似然估計、最大后驗估計和貝葉斯估計都是參數估計方法
  2. 極大似然估計和最大后驗估計都是點估計,即把參數看成未知常數,通過最大化似然和后驗概率實現。
  3. 貝葉斯估計把參數看成一個隨機變量,屬於分布估計,然后求該隨機變量在數據集D下的條件期望。
  4. 當先驗為均勻分布時,極大似然估計和最大后驗估計是等價的。即估計參數的先驗概率為 1 ;
  5. 當先驗和似然都是高斯分布時,最大后驗估計和貝葉斯估計是等價的。
  6. 通常情況下,貝葉斯估計的積分很難計算,但可以采取一些近似方法,如拉普拉斯和變分近似以及馬爾科夫鏈蒙特卡洛抽樣。

 

參考:https://blog.csdn.net/u011508640/article/details/72815981

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM