最大期望算法
EM算法的正式提出來自美國數學家Arthur Dempster、Nan Laird和Donald Rubin,其在1977年發表的研究對先前出現的作為特例的EM算法進行了總結並給出了標准算法的計算步驟,EM算法也由此被稱為Dempster-Laird-Rubin算法。1983年,美國數學家吳建福(C.F. Jeff Wu)給出了EM算法在指數族分布以外的收斂性證明。
MLE
MLE就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值 的計算過程。直白來講,就是給定了一定的數據,假定知道數據是從某種分布中 隨機抽取出來的,但是不知道這個分布具體的參數值,即“模型已定,參數未 知” ,MLE就可以用來估計模型的參數。MLE的目標是找出一組參數(模型中的 參數),使得模型產出觀察數據的概率最大。

-
編寫似然函數(即聯合概率函數)
-
對似然函數取對數,並整理;(一般都進行)
-
求導數;
-
解似然方程。
貝葉斯
貝葉斯算法估計是一種從先驗概率和樣本分布情況來計算后驗概率的一種方式。
貝葉斯算法中的常見概念:P(A)是事件A的先驗概率或者邊緣概率;P(A|B)是已知B發生后A發生的條件概率,也稱為A的后驗概率;P(B|A)是已知A發生后B發生的條件概率,也稱為B的后驗概率;P(B)是事件B的先驗概率或者邊緣概率。貝葉斯算法估計:
在實際應用中計算:
MAP
MAP和MLE一樣,都是通過樣本估計參數θ的值;在MLE中,是使似然函數P(x|θ)最大的時候參數θ的值,MLE中假設先驗概率是一個等值的;而在MAP中,則是求θ使P(x|θ)P(θ)的值最大,這也就是要求θ值不僅僅是讓似然函數最大,同時要求θ本身出現的先驗概率也得比較大。
MAP是貝葉斯的一種應用:
Jensen不等式
如果函數為凸函數,那么下面的式子將成立:


如果θ1,....,θk>=0,θ1,....,θk=1將存在:
對於f(E(x))=E(f(x))相等的時候,也就是x==y的時候.
相反對於這樣的函數:


公式將變成:
EM算法引入
假設有3枚硬幣,分別記作A,B,C。這些硬幣正面出現的概率分別是π,p和q。進行如下擲硬幣試驗:先擲硬幣A,根據其結果選出硬幣B或硬幣C,正面選硬幣B,反面選硬幣C;然后擲選出的硬幣,擲硬幣的結果,出現正面記作1,出現反面記作0;獨立地重復n次試驗(這里,n=10),觀測結果為1,1,0,1,0,0,1,0,1,1
假設只能觀測到擲硬幣的結果,不能觀測擲硬幣的過程。問如何估計三硬幣各自的正面朝上的概率,即三硬幣模型的參數。
這里,隨機變量y是觀測變量,表示一次試驗觀測的結果是1或0;隨機變量z是隱變量,表示未觀測到的擲硬幣A的結果;θ=(π,p,q)是模型參數。隨機變量y的數據可以觀測,隨機變量z的數據不可觀測。
三硬幣模型:

EM算法(Expectation Maximization Algorithm, 最大期望算法)是一種迭代類型的算法,是一種在概率模型中尋找參數最大似然估計或者最大后驗估計的算法,其中概率模型依賴於無法觀測的隱藏變量。
EM原理
給定的m個訓練樣本{x(1),x(2),...,x(m)},樣本間獨立,找出樣本的模型參數θ,極大化模型分布的對數似然函數如下:
假定樣本數據中存在隱含數據z={z(1),z(2),...,z(k)},此時極大化模型分布的對數似然函數如下:
令z的分布為Q(z;θ) ,並且Q(z;θ)≥0;sum(Q(z;θ))=1;那么有如下公式:

求l(θ)的最大值而后面的式子正好是它的下界,所以求后面式子的上界就行了,根據jensen不等式,當下列式子為常數的時候,l(θ)才能取等號,
EM算法的流程
樣本數據x={x,x,...,x},聯合分布p(x,z;θ),條件分布p(z|x;θ),最大迭代次數J1) 隨機初始化模型參數θ的初始值θ02) 開始EM算法的迭代處理:
-
E步:計算聯合分布的條件概率期望
-
M步:極大化L函數,得到θj+1
-
如果θj+1已經收斂,則算法結束,輸出最終的模型參數θ,否則繼續迭代處理
給出停止迭代的條件,一般是對較小的正數ε1,ε2,若滿足下面條件則停止迭代
現在回到剛開始算法引入時候三個硬幣例子:
1,初始化模型參數π,p,q
2,EM迭代:
E:估計隱藏變量概率分布期望函數
M:根據期望函數重新估計分布函數的參數π,p,q
對上面的式子求偏導即可:

