一、原理
它是建立在極大似然原理的基礎上的一個統計方法,極大似然原理的直觀想法是:一個隨機試驗如有若干個可能的結果A,B,C,…。若在僅僅作一次試驗中,結果A出現,則一般認為試驗條件對A出現有利,也即A出現的概率很大。一般地,事件A發生的概率與參數theta相關,A發生的概率記為P(A,theta),則theta的估計應該使上述概率達到最大,這樣的theta顧名思義稱為極大似然估計。
二、步驟
三、舉例分析
極大似然估計,顧名思義是一種估計方法。既然是一種估計方法,我們至少必須搞清楚幾個問題:估計什么?需要什么前提或假設?如何估計?估計的准確度如何?
直觀概念,最大似然估計:
給定:模型(參數全部或者部分未知)和數據集(樣本)
估計:模型的未知參數。
基本思想:
這一方法是基於這樣的思想:我們所估計的模型參數,要使得產生這個給定樣本的可能性最大。在最大釋然估計中,我們試圖在給定模型的情況下,找到最佳的參數,使得這組樣本出現的可能性最大。舉個極端的反面例子,如果我們得到一個中國人口的樣本,男女比例為3:2,現在讓你估計全國人口的真實比例,你肯定不會估計為男:女=1:0。因為如果是1:0,不可能得到3:2的樣本。我們大多很容易也估計為3:2,為什么?樣本估計總體?其背后的思想其實最是最大似然。
在機器學習的異常檢測中,根據模型(通過學習得來的)計算一個數據點出現的概率,如果這個概率小於某個我們事先設定的值,就把它判為異常。我們基於的是一個小事件的思想:如果一件可能性極小的事情竟然發生了,那么就極有可能是異常。舉個例子,我這輩子跟奧巴馬成為哥們的可能性幾乎為零,如果哪一天我跟奧巴馬在燒烤攤喝3塊錢一瓶的啤酒,那么絕對叫異常。
例子1:估計高斯分布的均值和方差
假設我們有一組來自高斯分布(均值和方差未知)的獨立樣本x[1]、x[2]、...、x[N],即
X[n] ~ N(u,t^2), n=1,2,...,N (注,本文中方差均勻t^2代替)
簡單起見,我們假設這些觀測值都是相同獨立的,也就是這些觀測值獨立同分布(iid)。現在讓你從這些樣本中估計均值u和方差,如何下手?最大似然估計來幫你解決。
1)既然是idd,那么聯合概率密度f(x[1],...,x[N]; u,t^2)=f(x[1] ; u,t^2)*...*f(x[N]; u,t^2),帶入高斯分布得到:
我們把這個式子叫做似然函數,用來衡量從模型中產生這個樣本組的可能性大小,我們記為L(x[1],...,x[n]; u,t^2).除以樣本容量平均一下,就叫平均對數似然。這個函數有變量x[1],...x[N],還有u,t^2.現在我們換個角度看,把x[1]到x[N]看成是固定的,而u和t^2可能自由變化。根據基本思想,我們下一步就是要找到使得這個似然函數達到最大值的u和t^2的取值。
2)給定樣本值之后,我們要求出上面式子最大值,由於ln函數是單調遞增函數,我們將L取對數,得到
首先求L達到最大時u的值,取u的導數,令導數為0,得到u的估計值
接着把方差t^2看成一個變量,求導,令其等於零得到方差估計值
求解完畢。至於跟真實值差多少,計算比較復雜。有個定律是,如果有足夠多的樣本,那么我們可以使估計值達到任意的精度。極端情況下,樣本就是總體,估計值就等於真實值。
例子2:人口比例
地球人都知道,概率模型中,取值可以使連續的(例子1就是),也可以是離散的。我們來看看離散的情況,人口比例。
假設現在有一個中國人口的樣本組,樣本容量為1000,服從獨立同分布,男女比例為3:2.如何通過合理推到估計全國的人口比例(也就是證明樣本估計總體的可行性)。一樣用最大釋然估計,我們現在的模型是個離散模型,我們假設其參數p為男性人口比例。現在要估計的就是這個p的值.
同上面一樣,可以得到似然函數L=(p^600)*((1-p)^400),要求p,使得該函數最大,很簡單,求導賦零,可以得到p=0.6.
值得說明的是,有些情況下可能存在多個模型參數,同時滿足最大似然。另外有可能這個最佳的值是不存在的。最佳的模型參數擬合樣本的函數是最好的。
最大似然估計也是統計學習中經驗風險最小化(RRM)的例子。如果模型為條件概率分布,損失函數定義為對數損失函數,經驗風險最小化就等價於最大似然估計。
小結一下,最大似然估計是在給定模型(含有未知參數)和樣本集的情況下,用來估計模型參數的方法。其基本思想是找到最佳的模型參數,使得模型實現對樣本的最大程度擬合,也就使樣本集出現的可能性最大。