機器學習之高斯混合模型及EM算法


第一部分:

這篇討論使用期望最大化算法(Expectation-Maximization)來進行密度估計(density estimation)。

      與k-means一樣,給定的訓練樣本是clip_image002,我們將隱含類別標簽用clip_image004表示。與k-means的硬指定不同,我們首先認為clip_image004[1]是滿足一定的概率分布的,這里我們認為滿足多項式分布,clip_image006,其中clip_image008clip_image004[2]有k個值{1,…,k}可以選取。而且我們認為在給定clip_image004[3]后,clip_image010滿足多值高斯分布,即clip_image012。由此可以得到聯合分布clip_image014

      整個模型簡單描述為對於每個樣例clip_image010[1],我們先從k個類別中按多項式分布抽取一個clip_image016,然后根據clip_image016[1]所對應的k個多值高斯分布中的一個生成樣例clip_image010[2],。整個過程稱作混合高斯模型。注意的是這里的clip_image016[2]仍然是隱含隨機變量。模型中還有三個變量clip_image018clip_image020。最大似然估計為clip_image022。對數化后如下:

      clip_image023

      這個式子的最大值是不能通過前面使用的求導數為0的方法解決的,因為求的結果不是close form。但是假設我們知道了每個樣例的clip_image016[3],那么上式可以簡化為:

      clip_image024

       這時候我們再來對clip_image018[1]clip_image020[1]進行求導得到:

      clip_image025

      clip_image027就是樣本類別中clip_image029的比率。clip_image031是類別為j的樣本特征均值,clip_image033是類別為j的樣例的特征的協方差矩陣。

實際上,當知道clip_image016[4]后,最大似然估計就近似於高斯判別分析模型(Gaussian discriminant analysis model)了。所不同的是GDA中類別y是伯努利分布,而這里的z是多項式分布,還有這里的每個樣例都有不同的協方差矩陣,而GDA中認為只有一個。

      之前我們是假設給定了clip_image016[5],實際上clip_image016[6]是不知道的。那么怎么辦呢?考慮之前提到的EM的思想,第一步是猜測隱含類別變量z,第二步是更新其他參數,以獲得最大的最大似然估計。用到這里就是:

循環下面步驟,直到收斂: {

      (E步)對於每一個i和j,計算

                  clip_image035

      (M步),更新參數:

                  clip_image036

}

      在E步中,我們將其他參數clip_image038看作常量,計算clip_image040的后驗概率,也就是估計隱含類別變量。估計好后,利用上面的公式重新計算其他參數,計算好后發現最大化最大似然估計時,clip_image042值又不對了,需要重新計算,周而復始,直至收斂。

      clip_image042[1]的具體計算公式如下:

      clip_image043

      這個式子利用了貝葉斯公式。

      這里我們使用clip_image045代替了前面的clip_image047,由簡單的0/1值變成了概率值。

      對比K-means可以發現,這里使用了“軟”指定,為每個樣例分配的類別clip_image040[1]是有一定的概率的,同時計算量也變大了,每個樣例i都要計算屬於每一個類別j的概率。與K-means相同的是,結果仍然是局部最優解。對其他參數取不同的初始值進行多次計算不失為一種好方法。

      雖然之前再K-means中定性描述了EM的收斂性,仍然沒有定量地給出,還有一般化EM的推導過程仍然沒有給出。下一篇着重介紹這些內容。

第二部分:

 EM是我一直想深入學習的算法之一,第一次聽說是在NLP課中的HMM那一節,為了解決HMM的參數估計問題,使用了EM算法。在之后的MT中的詞對齊中也用到了。在Mitchell的書中也提到EM可以用於貝葉斯網絡中。

下面主要介紹EM的整個推導過程。

1. Jensen不等式

      回顧優化理論中的一些概念。設f是定義域為實數的函數,如果對於所有的實數x,clip_image002,那么f是凸函數。當x是向量時,如果其hessian矩陣H是半正定的(clip_image004),那么f是凸函數。如果clip_image006或者clip_image008,那么稱f是嚴格凸函數。

      Jensen不等式表述如下:

      如果f是凸函數,X是隨機變量,那么

      clip_image010

      特別地,如果f是嚴格凸函數,那么clip_image012當且僅當clip_image014,也就是說X是常量。

      這里我們將clip_image016簡寫為clip_image018

      如果用圖表示會很清晰:

      clip_image019

      圖中,實線f是凸函數,X是隨機變量,有0.5的概率是a,有0.5的概率是b。(就像擲硬幣一樣)。X的期望值就是a和b的中值了,圖中可以看到clip_image010[1]成立。

      當f是(嚴格)凹函數當且僅當-f是(嚴格)凸函數。

      Jensen不等式應用於凹函數時,不等號方向反向,也就是clip_image021

2. EM算法

      給定的訓練樣本是clip_image023,樣例間獨立,我們想找到每個樣例隱含的類別z,能使得p(x,z)最大。p(x,z)的最大似然估計如下:

      clip_image024

      第一步是對極大似然取對數,第二步是對每個樣例的每個可能類別z求聯合分布概率和。但是直接求clip_image026一般比較困難,因為有隱藏變量z存在,但是一般確定了z后,求解就容易了。

      EM是一種解決存在隱含變量優化問題的有效方法。竟然不能直接最大化clip_image028,我們可以不斷地建立clip_image030的下界(E步),然后優化下界(M步)。這句話比較抽象,看下面的。

      對於每一個樣例i,讓clip_image032表示該樣例隱含變量z的某種分布,clip_image032[1]滿足的條件是clip_image034。(如果z是連續性的,那么clip_image032[2]是概率密度函數,需要將求和符號換做積分符號)。比如要將班上學生聚類,假設隱藏變量z是身高,那么就是連續的高斯分布。如果按照隱藏變量是男女,那么就是伯努利分布了。

可以由前面闡述的內容得到下面的公式:

      clip_image035

      (1)到(2)比較直接,就是分子分母同乘以一個相等的函數。(2)到(3)利用了Jensen不等式,考慮到clip_image037是凹函數(二階導數小於0),而且

      clip_image038

      就是clip_image039的期望(回想期望公式中的Lazy Statistician規則)

      設Y是隨機變量X的函數clip_image041(g是連續函數),那么

      (1) X是離散型隨機變量,它的分布律為clip_image043,k=1,2,…。若clip_image045絕對收斂,則有

      clip_image047

      (2) X是連續型隨機變量,它的概率密度為clip_image049,若clip_image051絕對收斂,則有

      clip_image053

      對應於上述問題,Y是clip_image039[1],X是clip_image055clip_image057clip_image059,g是clip_image055[1]clip_image039[2]的映射。這樣解釋了式子(2)中的期望,再根據凹函數時的Jensen不等式:

      clip_image060

可以得到(3)。

      這個過程可以看作是對clip_image028[1]求了下界。對於clip_image032[3]的選擇,有多種可能,那種更好的?假設clip_image026[1]已經給定,那么clip_image028[2]的值就決定於clip_image057[1]clip_image062了。我們可以通過調整這兩個概率使下界不斷上升,以逼近clip_image028[3]的真實值,那么什么時候算是調整好了呢?當不等式變成等式時,說明我們調整后的概率能夠等價於clip_image028[4]了。按照這個思路,我們要找到等式成立的條件。根據Jensen不等式,要想讓等式成立,需要讓隨機變量變成常數值,這里得到:

      clip_image063

      c為常數,不依賴於clip_image065。對此式子做進一步推導,我們知道clip_image067,那么也就有clip_image069,(多個等式分子分母相加不變,這個認為每個樣例的兩個概率比值都是c),那么有下式:

      clip_image070

      至此,我們推出了在固定其他參數clip_image026[2]后,clip_image072的計算公式就是后驗概率,解決了clip_image072[1]如何選擇的問題。這一步就是E步,建立clip_image028[5]的下界。接下來的M步,就是在給定clip_image072[2]后,調整clip_image026[3],去極大化clip_image028[6]的下界(在固定clip_image072[3]后,下界還可以調整的更大)。那么一般的EM算法的步驟如下:

循環重復直到收斂 {

      (E步)對於每一個i,計算

                  clip_image074

      (M步)計算

                  clip_image075

      那么究竟怎么確保EM收斂?假定clip_image077clip_image079是EM第t次和t+1次迭代后的結果。如果我們證明了clip_image081,也就是說極大似然估計單調增加,那么最終我們會到達最大似然估計的最大值。下面來證明,選定clip_image077[1]后,我們得到E步

      clip_image083

      這一步保證了在給定clip_image077[2]時,Jensen不等式中的等式成立,也就是

      clip_image084

      然后進行M步,固定clip_image086,並將clip_image088視作變量,對上面的clip_image090求導后,得到clip_image092,這樣經過一些推導會有以下式子成立:

      clip_image093

      解釋第(4)步,得到clip_image092[1]時,只是最大化clip_image090[1],也就是clip_image095的下界,而沒有使等式成立,等式成立只有是在固定clip_image026[4],並按E步得到clip_image097時才能成立。

      況且根據我們前面得到的下式,對於所有的clip_image097[1]clip_image026[5]都成立

      clip_image098

      第(5)步利用了M步的定義,M步就是將clip_image088[1]調整到clip_image100,使得下界最大化。因此(5)成立,(6)是之前的等式結果。

      這樣就證明了clip_image102會單調增加。一種收斂方法是clip_image102[1]不再變化,還有一種就是變化幅度很小。

      再次解釋一下(4)、(5)、(6)。首先(4)對所有的參數都滿足,而其等式成立條件只是在固定clip_image026[6],並調整好Q時成立,而第(4)步只是固定Q,調整clip_image026[7],不能保證等式一定成立。(4)到(5)就是M步的定義,(5)到(6)是前面E步所保證等式成立條件。也就是說E步會將下界拉到與clip_image102[2]一個特定值(這里clip_image088[2])一樣的高度,而此時發現下界仍然可以上升,因此經過M步后,下界又被拉升,但達不到與clip_image102[3]另外一個特定值一樣的高度,之后E步又將下界拉到與這個特定值一樣的高度,重復下去,直到最大值。

      如果我們定義

      clip_image103

      從前面的推導中我們知道clip_image105,EM可以看作是J的坐標上升法,E步固定clip_image026[8],優化clip_image107,M步固定clip_image107[1]優化clip_image026[9]

3. 重新審視混合高斯模型

      我們已經知道了EM的精髓和推導過程,再次審視一下混合高斯模型。之前提到的混合高斯模型的參數clip_image109clip_image111計算公式都是根據很多假定得出的,有些沒有說明來由。為了簡單,這里在M步只給出clip_image113clip_image115的推導方法。

E步很簡單,按照一般EM公式得到:

      clip_image116

      簡單解釋就是每個樣例i的隱含類別clip_image055[2]為j的概率可以通過后驗概率計算得到。

      在M步中,我們需要在固定clip_image072[4]后最大化最大似然估計,也就是

      clip_image118

      這是將clip_image120的k種情況展開后的樣子,未知參數clip_image122clip_image124

      固定clip_image126clip_image128,對clip_image130求導得

      clip_image131

      等於0時,得到

      clip_image132

      這就是我們之前模型中的clip_image115[1]的更新公式。

      然后推導clip_image126[1]的更新公式。看之前得到的

      clip_image133

      在clip_image113[1]clip_image115[2]確定后,分子上面的一串都是常數了,實際上需要優化的公式是:

      clip_image134

      需要知道的是,clip_image126[2]還需要滿足一定的約束條件就是clip_image136

      這個優化問題我們很熟悉了,直接構造拉格朗日乘子。

      clip_image137

      還有一點就是clip_image139,但這一點會在得到的公式里自動滿足。

      求導得,

      clip_image141

      等於0,得到

      clip_image142

      也就是說clip_image143再次使用clip_image136[1],得到

      clip_image144

      這樣就神奇地得到了clip_image146

      那么就順勢得到M步中clip_image126[3]的更新公式:

      clip_image147

      clip_image111[1]的推導也類似,不過稍微復雜一些,畢竟是矩陣。結果在之前的混合高斯模型中已經給出。

4. 總結

      如果將樣本看作觀察值,潛在類別看作是隱藏變量,那么聚類問題也就是參數估計問題,只不過聚類問題中參數分為隱含類別變量和其他參數,這猶如在x-y坐標系中找一個曲線的極值,然而曲線函數不能直接求導,因此什么梯度下降方法就不適用了。但固定一個變量后,另外一個可以通過求導得到,因此可以使用坐標上升法,一次固定一個變量,對另外的求極值,最后逐步逼近極值。對應到EM上,E步估計隱含變量,M步估計其他參數,交替將極值推向最大。EM中還有“硬”指定和“軟”指定的概念,“軟”指定看似更為合理,但計算量要大,“硬”指定在某些場合如K-means中更為實用(要是保持一個樣本點到其他所有中心的概率,就會很麻煩)。

      另外,EM的收斂性證明方法確實很牛,能夠利用log的凹函數性質,還能夠想到利用創造下界,拉平函數下界,優化下界的方法來逐步逼近極大值。而且每一步迭代都能保證是單調的。最重要的是證明的數學公式非常精妙,硬是分子分母都乘以z的概率變成期望來套上Jensen不等式,前人都是怎么想到的。

      在Mitchell的Machine Learning書中也舉了一個EM應用的例子,明白地說就是將班上學生的身高都放在一起,要求聚成兩個類。這些身高可以看作是男生身高的高斯分布和女生身高的高斯分布組成。因此變成了如何估計每個樣例是男生還是女生,然后在確定男女生情況下,如何估計均值和方差,里面也給出了公式,有興趣可以參考。

原博文:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html(一)

           http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html(二)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM