大部分內容援引自別處 有少許修改 EM聚類算法一般多用於為了對數據進行訓練而確定相關公式中的參數
1.一般概念介紹
最大期望算法(Expectation-maximization algorithm,又譯期望最大化算法)在統計中被用於尋找,依賴於不可觀察的隱性變量的概率模型中,參數的最大似然估計。
在統計計算中,最大期望(EM)算法是在概率(probabilistic)模型中尋找參數最大似然估計或者最大后驗估計的算法,其中概率模型依賴於無法觀測的隱藏變量(Latent Variable)。最大期望經常用在機器學習和計算機視覺的數據聚類(Data Clustering)領域。最大期望算法經過兩個步驟交替進行計算,第一步是計算期望(E),利用對隱藏變量的現有估計值,計算其最大似然估計值;第二步是最大化(M),最大化在 E 步上求得的最大似然值來計算參數的值。M 步上找到的參數估計值被用於下一個 E 步計算中,這個過程不斷交替進行。
2. Jensen不等式
回顧優化理論中的一些概念。設f是定義域為實數的函數,如果對於所有的實數x,,那么f是凸函數。當x是向量時,如果其hessian矩陣H是半正定的(
),那么f是凸函數。如果
或者
,那么稱f是嚴格凸函數。
Jensen不等式表述如下:
如果f是凸函數,X是隨機變量,那么
特別地,如果f是嚴格凸函數,那么當且僅當
,也就是說X是常量。
這里我們將簡寫為
。
如果用圖表示會很清晰:
圖中,實線f是凸函數,X是隨機變量,有0.5的概率是a,有0.5的概率是b。(就像擲硬幣一樣)。X的期望值就是a和b的中值了,圖中可以看到成立。
當f是(嚴格)凹函數當且僅當-f是(嚴格)凸函數。
Jensen不等式應用於凹函數時,不等號方向反向,也就是。
3.EM算法
給定的訓練樣本是,樣例間獨立,我們想找到每個樣例隱含的類別z,能使得p(x,z)最大。p(x,z)的最大似然估計如下:
第一步是對極大似然取對數,第二步是對每個樣例的每個可能類別z求聯合分布概率和。但是直接求一般比較困難,因為有隱藏變量z存在,但是一般確定了z后,求解就容易了。
EM是一種解決存在隱含變量優化問題的有效方法。竟然不能直接最大化,我們可以不斷地建立
的下界(E步),然后優化下界(M步)。這句話比較抽象,看下面的。
對於每一個樣例i,讓表示該樣例隱含變量z的某種分布,
滿足的條件是
。(如果z是連續性的,那么
是概率密度函數,需要將求和符號換做積分符號)。比如要將班上學生聚類,假設隱藏變量z是身高,那么就是連續的高斯分布。如果按照隱藏變量是男女,那么就是伯努利分布了。
可以由前面闡述的內容得到下面的公式:
(1)到(2)比較直接,就是分子分母同乘以一個相等的函數。(2)到(3)利用了Jensen不等式,考慮到是凹函數(二階導數小於0),而且
就是的期望(回想期望公式中的Lazy Statistician規則)
設Y是隨機變量X的函數 (1) X是離散型隨機變量,它的分布律為 (2) X是連續型隨機變量,它的概率密度為 |
對應於上述問題,Y是,X是
,
是
,g是
到
的映射。這樣解釋了式子(2)中的期望,再根據凹函數時的Jensen不等式:
可以得到(3)。
這個過程可以看作是對求了下界。對於
的選擇,有多種可能,那種更好的?假設
已經給定,那么
的值就決定於
和
了。我們可以通過調整這兩個概率使下界不斷上升,以逼近
的真實值,那么什么時候算是調整好了呢?當不等式變成等式時,說明我們調整后的概率能夠等價於
了。按照這個思路,我們要找到等式成立的條件。根據Jensen不等式,要想讓等式成立,需要讓隨機變量變成常數值,這里得到:
c為常數,不依賴於。對此式子做進一步推導,我們知道
,那么也就有
,(多個等式分子分母相加不變,這個認為每個樣例的兩個概率比值都是c),那么有下式:
至此,我們推出了在固定其他參數后,
的計算公式就是后驗概率,解決了
如何選擇的問題。這一步就是E步,建立
的下界。接下來的M步,就是在給定
后,調整
,去極大化
的下界(在固定
后,下界還可以調整的更大)。那么一般的EM算法的步驟如下:
循環重復直到收斂 { (E步)對於每一個i,計算 (M步)計算 } |
這里順便提一下其中的p的計算式可以實例化 例如p的公式可以被 貝葉斯公式替代 另外對於z和的初始值,有的資料給出的辦法是第一次猜測隱含類別變量z,對於
可以復給一個隨意的初始值
那么究竟怎么確保EM收斂?假定和
是EM第t次和t+1次迭代后的結果。如果我們證明了
,也就是說極大似然估計單調增加,那么最終我們會到達最大似然估計的最大值。下面來證明,選定
后,我們得到E步
這一步保證了在給定時,Jensen不等式中的等式成立,也就是
然后進行M步,固定,並將
視作變量,對上面的
求導后,得到
,這樣經過一些推導會有以下式子成立:
解釋第(4)步,得到時,只是最大化
,也就是
的下界,而沒有使等式成立,等式成立只有是在固定
,並按E步得到
時才能成立。
況且根據我們前面得到的下式,對於所有的和
都成立
第(5)步利用了M步的定義,M步就是將調整到
,使得下界最大化。因此(5)成立,(6)是之前的等式結果。
這樣就證明了會單調增加。一種收斂方法是
不再變化,還有一種就是變化幅度很小。
再次解釋一下(4)、(5)、(6)。首先(4)對所有的參數都滿足,而其等式成立條件只是在固定,並調整好Q時成立,而第(4)步只是固定Q,調整
,不能保證等式一定成立。(4)到(5)就是M步的定義,(5)到(6)是前面E步所保證等式成立條件。也就是說E步會將下界拉到與
一個特定值(這里
)一樣的高度,而此時發現下界仍然可以上升,因此經過M步后,下界又被拉升,但達不到與
另外一個特定值一樣的高度,之后E步又將下界拉到與這個特定值一樣的高度,重復下去,直到最大值。
如果我們定義
從前面的推導中我們知道,EM可以看作是J的坐標上升法,E步固定
,優化
,M步固定
優化
。