淺談極大似然估計


一、原理

  它是建立在極大似然原理的基礎上的一個統計方法,極大似然原理的直觀想法是:一個隨機試驗如有若干個可能的結果A,B,C,…。若在僅僅作一次試驗中,結果A出現,則一般認為試驗條件對A出現有利,也即A出現的概率很大。一般地,事件A發生的概率與參數theta相關,A發生的概率記為P(A,theta),則theta的估計應該使上述概率達到最大,這樣的theta顧名思義稱為極大似然估計。

二、步驟

  求極大似然函數估計值的一般步驟:
  (1) 寫出似然函數;
  (2) 對似然函數取對數,並整理;
  (3) 求導數 ;
  (4) 解似然方程 。
  極大似然估計,只是一種概率論在統計學的應用,它是參數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分布,但是其中具體的參數不清楚,參數估計就是通過若干次試驗,觀察其結果,利用結果推出參數的大概值。極大似然估計是建立在這樣的思想上:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以干脆就把這個參數作為估計的真實值。
  當然極大似然估計只是一種粗略的數學期望,要知道它的誤差大小還要做區間估計。

三、舉例分析

  極大似然估計,顧名思義是一種估計方法。既然是一種估計方法,我們至少必須搞清楚幾個問題:估計什么?需要什么前提或假設?如何估計?估計的准確度如何?

  直觀概念,最大似然估計:

  給定:模型(參數全部或者部分未知)和數據集(樣本)

  估計:模型的未知參數。

  基本思想:

  這一方法是基於這樣的思想:我們所估計的模型參數,要使得產生這個給定樣本的可能性最大。在最大釋然估計中,我們試圖在給定模型的情況下,找到最佳的參數,使得這組樣本出現的可能性最大。舉個極端的反面例子,如果我們得到一個中國人口的樣本,男女比例為3:2,現在讓你估計全國人口的真實比例,你肯定不會估計為男:女=1:0。因為如果是1:0,不可能得到3:2的樣本。我們大多很容易也估計為3:2,為什么?樣本估計總體?其背后的思想其實最是最大似然。

  在機器學習的異常檢測中,根據模型(通過學習得來的)計算一個數據點出現的概率,如果這個概率小於某個我們事先設定的值,就把它判為異常。我們基於的是一個小事件的思想:如果一件可能性極小的事情竟然發生了,那么就極有可能是異常。舉個例子,我這輩子跟奧巴馬成為哥們的可能性幾乎為零,如果哪一天我跟奧巴馬在燒烤攤喝3塊錢一瓶的啤酒,那么絕對叫異常。

  例子1:估計高斯分布的均值和方差

  假設我們有一組來自高斯分布(均值和方差未知)的獨立樣本x[1]、x[2]、...、x[N],即

        X[n] ~ N(u,t^2), n=1,2,...,N  (注,本文中方差均勻t^2代替)

  簡單起見,我們假設這些觀測值都是相同獨立的,也就是這些觀測值獨立同分布(iid)。現在讓你從這些樣本中估計均值u和方差,如何下手?最大似然估計來幫你解決。

  1)既然是idd,那么聯合概率密度f(x[1],...,x[N]; u,t^2)=f(x[1] ; u,t^2)*...*f(x[N]; u,t^2),帶入高斯分布得到:                  

  我們把這個式子叫做似然函數,用來衡量從模型中產生這個樣本組的可能性大小,我們記為L(x[1],...,x[n]; u,t^2).除以樣本容量平均一下,就叫平均對數似然。這個函數有變量x[1],...x[N],還有u,t^2.現在我們換個角度看,把x[1]到x[N]看成是固定的,而u和t^2可能自由變化。根據基本思想,我們下一步就是要找到使得這個似然函數達到最大值的u和t^2的取值。

  2)給定樣本值之后,我們要求出上面式子最大值,由於ln函數是單調遞增函數,我們將L取對數,得到

  首先求L達到最大時u的值,取u的導數,令導數為0,得到u的估計值

               

  接着把方差t^2看成一個變量,求導,令其等於零得到方差估計值

              

  求解完畢。至於跟真實值差多少,計算比較復雜。有個定律是,如果有足夠多的樣本,那么我們可以使估計值達到任意的精度。極端情況下,樣本就是總體,估計值就等於真實值。

  例子2:人口比例

  地球人都知道,概率模型中,取值可以使連續的(例子1就是),也可以是離散的。我們來看看離散的情況,人口比例。

  假設現在有一個中國人口的樣本組,樣本容量為1000,服從獨立同分布,男女比例為3:2.如何通過合理推到估計全國的人口比例(也就是證明樣本估計總體的可行性)。一樣用最大釋然估計,我們現在的模型是個離散模型,我們假設其參數p為男性人口比例。現在要估計的就是這個p的值.

  同上面一樣,可以得到似然函數L=(p^600)*((1-p)^400),要求p,使得該函數最大,很簡單,求導賦零,可以得到p=0.6.

  值得說明的是,有些情況下可能存在多個模型參數,同時滿足最大似然。另外有可能這個最佳的值是不存在的。最佳的模型參數擬合樣本的函數是最好的。

  最大似然估計也是統計學習中經驗風險最小化(RRM)的例子。如果模型為條件概率分布,損失函數定義為對數損失函數,經驗風險最小化就等價於最大似然估計。

  小結一下,最大似然估計是在給定模型(含有未知參數)和樣本集的情況下,用來估計模型參數的方法。其基本思想是找到最佳的模型參數,使得模型實現對樣本的最大程度擬合,也就使樣本集出現的可能性最大。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM