1) 最大似然估計 MLE
給定一堆數據,假如我們知道它是從某一種分布中隨機取出來的,可是我們並不知道這個分布具體的參,即“模型已定,參數未知”。例如,我們知道這個分布是正態分布,但是不知道均值和方差;或者是二項分布,但是不知道均值。 最大似然估計(MLE,Maximum Likelihood Estimation)就可以用來估計模型的參數。MLE的目標是找出一組參數,使得模型產生出觀測數據的概率最大:
其中就是似然函數,表示在參數
下出現觀測數據的概率。我們假設每個觀測數據是獨立的,那么有
為了求導方便,一般對目標取log。 所以最優化對似然函數等同於最優化對數似然函數:
舉一個拋硬幣的簡單例子。 現在有一個正反面不是很勻稱的硬幣,如果正面朝上記為H,方面朝上記為T,拋10次的結果如下:
求這個硬幣正面朝上的概率有多大?
很顯然這個概率是0.2。現在我們用MLE的思想去求解它。我們知道每次拋硬幣都是一次二項分布,設正面朝上的概率是,那么似然函數為:
x=1表示正面朝上,x=0表示方面朝上。那么有:
求導:
令導數為0,很容易得到:
也就是0.2 。
2) 最大后驗概率 MAP
以上MLE求的是找出一組能夠使似然函數最大的參數,即。 現在問題稍微復雜一點點,假如這個參數
有一個先驗概率呢?比如說,在上面拋硬幣的例子,假如我們的經驗告訴我們,硬幣一般都是勻稱的,也就是
=0.5的可能性最大,
=0.2的可能性比較小,那么參數該怎么估計呢?這就是MAP要考慮的問題。 MAP優化的是一個后驗概率,即給定了觀測值后使
概率最大:
把上式根據貝葉斯公式展開:
我們可以看出第一項就是似然函數,第二項
就是參數的先驗知識。取log之后就是:
回到剛才的拋硬幣例子,假設參數有一個先驗估計,它服從Beta分布,即:
而每次拋硬幣任然服從二項分布:
那么,目標函數的導數為:
求導的第一項已經在上面MLE中給出了,第二項為:
令導數為0,求解為:
其中,表示正面朝上的次數。這里看以看出,MLE與MAP的不同之處在於,MAP的結果多了一些先驗分布的參數。
補充知識: Beta分布
Beat分布是一種常見的先驗分布,它形狀由兩個參數控制,定義域為[0,1]
Beta分布的最大值是x等於的時候:
所以在拋硬幣中,如果先驗知識是說硬幣是勻稱的,那么就讓。 但是很顯然即使它們相等,它兩的值也對最終結果很有影響。它兩的值越大,表示偏離勻稱的可能性越小:
原創博客,轉載請注明出處 Leavingseason http://www.cnblogs.com/sylvanas2012/p/5058065.html