EM聚類算法簡介

本文轉載自查看原文 2012-07-21 20:21 15315 基礎機器學習算法

大部分內容援引自別處有少許修改 EM聚類算法一般多用於為了對數據進行訓練而確定相關公式中的參數

1.一般概念介紹

最大期望算法（Expectation-maximization algorithm，又譯期望最大化算法）在統計中被用於尋找，依賴於不可觀察的隱性變量的概率模型中，參數的最大似然估計。

在統計計算中，最大期望（EM）算法是在概率（probabilistic）模型中尋找參數最大似然估計或者最大后驗估計的算法，其中概率模型依賴於無法觀測的隱藏變量（Latent Variable）。最大期望經常用在機器學習和計算機視覺的數據聚類（Data Clustering）領域。最大期望算法經過兩個步驟交替進行計算，第一步是計算期望（E），利用對隱藏變量的現有估計值，計算其最大似然估計值；第二步是最大化（M），最大化在 E 步上求得的最大似然值來計算參數的值。M 步上找到的參數估計值被用於下一個 E 步計算中，這個過程不斷交替進行。

2. Jensen不等式

回顧優化理論中的一些概念。設f是定義域為實數的函數，如果對於所有的實數x，，那么f是凸函數。當x是向量時，如果其hessian矩陣H是半正定的（），那么f是凸函數。如果或者，那么稱f是嚴格凸函數。

Jensen不等式表述如下：

如果f是凸函數，X是隨機變量，那么

特別地，如果f是嚴格凸函數，那么當且僅當，也就是說X是常量。

這里我們將簡寫為。

如果用圖表示會很清晰：

clip_image019

圖中，實線f是凸函數，X是隨機變量，有0.5的概率是a，有0.5的概率是b。（就像擲硬幣一樣）。X的期望值就是a和b的中值了，圖中可以看到成立。

當f是（嚴格）凹函數當且僅當-f是（嚴格）凸函數。

Jensen不等式應用於凹函數時，不等號方向反向，也就是。

3.EM算法

給定的訓練樣本是，樣例間獨立，我們想找到每個樣例隱含的類別z，能使得p(x,z)最大。p(x,z)的最大似然估計如下：

clip_image024

第一步是對極大似然取對數，第二步是對每個樣例的每個可能類別z求聯合分布概率和。但是直接求一般比較困難，因為有隱藏變量z存在，但是一般確定了z后，求解就容易了。

EM是一種解決存在隱含變量優化問題的有效方法。竟然不能直接最大化，我們可以不斷地建立的下界（E步），然后優化下界（M步）。這句話比較抽象，看下面的。

對於每一個樣例i，讓表示該樣例隱含變量z的某種分布，滿足的條件是。（如果z是連續性的，那么是概率密度函數，需要將求和符號換做積分符號）。比如要將班上學生聚類，假設隱藏變量z是身高，那么就是連續的高斯分布。如果按照隱藏變量是男女，那么就是伯努利分布了。

可以由前面闡述的內容得到下面的公式：

clip_image035

（1）到（2）比較直接，就是分子分母同乘以一個相等的函數。（2）到（3）利用了Jensen不等式，考慮到是凹函數（二階導數小於0），而且

clip_image038

就是的期望（回想期望公式中的Lazy Statistician規則）

設Y是隨機變量X的函數（g是連續函數），那么

（1） X是離散型隨機變量，它的分布律為，k=1,2,…。若絕對收斂，則有

clip_image047

（2） X是連續型隨機變量，它的概率密度為，若絕對收斂，則有

對應於上述問題，Y是，X是，是，g是到的映射。這樣解釋了式子（2）中的期望，再根據凹函數時的Jensen不等式：

clip_image060

可以得到（3）。

這個過程可以看作是對求了下界。對於的選擇，有多種可能，那種更好的？假設已經給定，那么的值就決定於和了。我們可以通過調整這兩個概率使下界不斷上升，以逼近的真實值，那么什么時候算是調整好了呢？當不等式變成等式時，說明我們調整后的概率能夠等價於了。按照這個思路，我們要找到等式成立的條件。根據Jensen不等式，要想讓等式成立，需要讓隨機變量變成常數值，這里得到：

clip_image063

c為常數，不依賴於。對此式子做進一步推導，我們知道，那么也就有，（多個等式分子分母相加不變，這個認為每個樣例的兩個概率比值都是c），那么有下式：

clip_image070

至此，我們推出了在固定其他參數后，的計算公式就是后驗概率，解決了如何選擇的問題。這一步就是E步，建立的下界。接下來的M步，就是在給定后，調整，去極大化的下界（在固定后，下界還可以調整的更大）。那么一般的EM算法的步驟如下：

循環重復直到收斂 {

（E步）對於每一個i，計算

（M步）計算

clip_image075

}

這里順便提一下其中的p的計算式可以實例化例如p的公式可以被貝葉斯公式替代另外對於z和的初始值，有的資料給出的辦法是第一次猜測隱含類別變量z，對於可以復給一個隨意的初始值

那么究竟怎么確保EM收斂？假定和是EM第t次和t+1次迭代后的結果。如果我們證明了，也就是說極大似然估計單調增加，那么最終我們會到達最大似然估計的最大值。下面來證明，選定后，我們得到E步

這一步保證了在給定時，Jensen不等式中的等式成立，也就是

clip_image084

然后進行M步，固定，並將視作變量，對上面的求導后，得到，這樣經過一些推導會有以下式子成立：

clip_image093

解釋第（4）步，得到時，只是最大化，也就是的下界，而沒有使等式成立，等式成立只有是在固定，並按E步得到時才能成立。

況且根據我們前面得到的下式，對於所有的和都成立

clip_image098

第（5）步利用了M步的定義，M步就是將調整到，使得下界最大化。因此（5）成立，（6）是之前的等式結果。

這樣就證明了會單調增加。一種收斂方法是不再變化，還有一種就是變化幅度很小。

再次解釋一下（4）、（5）、（6）。首先（4）對所有的參數都滿足，而其等式成立條件只是在固定，並調整好Q時成立，而第（4）步只是固定Q，調整，不能保證等式一定成立。（4）到（5）就是M步的定義，（5）到（6）是前面E步所保證等式成立條件。也就是說E步會將下界拉到與一個特定值（這里）一樣的高度，而此時發現下界仍然可以上升，因此經過M步后，下界又被拉升，但達不到與另外一個特定值一樣的高度，之后E步又將下界拉到與這個特定值一樣的高度，重復下去，直到最大值。

如果我們定義

clip_image103

從前面的推導中我們知道，EM可以看作是J的坐標上升法，E步固定，優化，M步固定優化。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 EM算法之GMM聚類聚類之K均值聚類和EM算法聚類和EM算法——K均值聚類 K-means聚類算法與EM算法聚類之高斯混合模型與EM算法【機器學習】K-means聚類算法與EM算法 python大戰機器學習——聚類和EM算法 K-Means聚類和EM算法復習總結 EM 算法-對鳶尾花數據進行聚類 EM算法