最大期望算法

EM算法的正式提出來自美國數學家Arthur Dempster、Nan Laird和Donald Rubin，其在1977年發表的研究對先前出現的作為特例的EM算法進行了總結並給出了標准算法的計算步驟，EM算法也由此被稱為Dempster-Laird-Rubin算法。1983年，美國數學家吳建福（C.F. Jeff Wu）給出了EM算法在指數族分布以外的收斂性證明。

MLE

MLE就是利用已知的樣本結果，反推最有可能(最大概率)導致這樣結果的參數值的計算過程。直白來講，就是給定了一定的數據，假定知道數據是從某種分布中隨機抽取出來的，但是不知道這個分布具體的參數值，即“模型已定，參數未知” ，MLE就可以用來估計模型的參數。MLE的目標是找出一組參數(模型中的參數)，使得模型產出觀察數據的概率最大。

MLE求解過程:

編寫似然函數(即聯合概率函數)
對似然函數取對數，並整理；(一般都進行)
求導數；
解似然方程。

貝葉斯

貝葉斯算法估計是一種從先驗概率和樣本分布情況來計算后驗概率的一種方式。

貝葉斯算法中的常見概念：P(A)是事件A的先驗概率或者邊緣概率；P(A|B)是已知B發生后A發生的條件概率，也稱為A的后驗概率；P(B|A)是已知A發生后B發生的條件概率，也稱為B的后驗概率；P(B)是事件B的先驗概率或者邊緣概率。貝葉斯算法估計:

在實際應用中計算:

MAP

MAP和MLE一樣，都是通過樣本估計參數θ的值；在MLE中，是使似然函數P(x|θ)最大的時候參數θ的值，MLE中假設先驗概率是一個等值的；而在MAP中，則是求θ使P(x|θ)P(θ)的值最大，這也就是要求θ值不僅僅是讓似然函數最大，同時要求θ本身出現的先驗概率也得比較大。

MAP是貝葉斯的一種應用:

Jensen不等式

如果函數為凸函數,那么下面的式子將成立:

如果θ1,....,θk>=0,θ1,....,θk=1將存在：

對於f(E(x))=E(f(x))相等的時候,也就是x==y的時候.

相反對於這樣的函數:

公式將變成:

EM算法引入

假設有3枚硬幣，分別記作A，B，C。這些硬幣正面出現的概率分別是π，p和q。進行如下擲硬幣試驗：先擲硬幣A，根據其結果選出硬幣B或硬幣C，正面選硬幣B，反面選硬幣C；然后擲選出的硬幣，擲硬幣的結果，出現正面記作1，出現反面記作0；獨立地重復n次試驗(這里，n=10)，觀測結果為1,1,0,1,0,0,1,0,1,1

假設只能觀測到擲硬幣的結果，不能觀測擲硬幣的過程。問如何估計三硬幣各自的正面朝上的概率，即三硬幣模型的參數。

這里，隨機變量y是觀測變量，表示一次試驗觀測的結果是1或0；隨機變量z是隱變量，表示未觀測到的擲硬幣A的結果；θ=(π，p，q)是模型參數。隨機變量y的數據可以觀測，隨機變量z的數據不可觀測。

三硬幣模型: