聚類之高斯混合模型與EM算法


一、高斯混合模型概述

1、公式

高斯混合模型是指具有如下形式的概率分布模型:

其中,αk≥0,且∑αk=1,是每一個高斯分布的權重。Ø(y|θk)是第k個高斯分布的概率密度,被稱為第k個分模型,參數為θk=(μk, αk2),概率密度的表達式為:

高斯混合模型就是K個高斯分布的線性組合,它假設所有的樣本可以分為K類,每一類的樣本服從一個高斯分布,那么高斯混合模型的學習過程就是去估計K個高斯分布的概率密度Ø(y|θk),以及每個高斯分布的權重αk。每個觀測樣本出現的概率就表示為K個高斯分布概率的加權。

所謂聚類,就是對於某個樣本yj,把該樣本代入到K個高斯分布中求出屬於每個類別的概率:

 

然后選擇概率值最高的那個類別作為它最終的歸屬。把所有的樣本分別歸入K個類,也就完成了聚類的過程。

2、案例

假設有 20 個身高樣本數據,並不知道每個樣本數據是來自男生還是女生。在這種情況下,如何將這 20 個身高數據聚成男女生兩大類呢?

用高斯混合模型來聚類,那么假設男女生身高分別服從兩個不同的高斯分布,高斯混合模型就是由男生身高和女生身高這兩個高斯分布混合而成。在高斯混合模型中,樣本點屬於某一類的概率不是非0即 1 的,而是屬於不同類有不同的概率值。如下圖,有兩個高斯分布,均值分別為μ1和μ2,而高斯混合模型就是又這兩個高斯分布的概率密度線性組合而成。

二、高斯混合模型參數估計的EM算法

假設觀測數據y1, y2, ...yN由高斯混合模型生成:

其中,要估計的參數θ=(α1, α2, ...αK; θ1, θ2, ..., θK),θk=(μk, αk2),k=1,2,...,K。因此如果高斯混合模型由K個高斯分布混合而成,那么就有3K個參數需要估計。

我們用極大似然估計法來估計參數θ,也就是求參數θ,使得觀測數據y的對數似然函數L(θ)=logP(y|θ)的極大化:

由於對數似然函數L(θ)中包含了和的對數,比較難以求解,因此考慮用EM算法。

(一)高斯混合模型EM算法的推導

用EM算法估計高斯混合模型的參數θ,步驟如下:

1、明確隱變量,寫出完全數據的對數似然函數

可以設想觀測數據yj,j=1,2,..., N,是這樣產生的:

首先依概率αk選擇第k個高斯分布分模型Ø(y|θk),然后依這個分模型的概率分布Ø(y|θk)生成觀測數據yj,N個觀測數據中有多個來自於同一個分模型。

這時觀測數據yj,j=1,2,..., N是已知的,而反映觀測數據yj來自於第k個分模型的數據是未知的,也就是隱變量,用γjk表示:

有了觀測數據yj和未觀測數據γjk,那么完全數據是:

在《概率圖模型之EM算法》中,我們說了,EM算法的目標是通過迭代,求不完全數據的對數似然函數L(θ)=logP(y|θ)的極大似然估計,這可以轉化為求完全數據的對數似然函數logP(y, γ|θ)的期望的極大似然估計。

於是我們先得到完全數據的似然函數:

其中nk表示N個觀測數據中,由第k個分模型生成的數據的個數。

那么完全數據的對數似然函數為:

2、EM算法的E步:確定Q函數

Q函數是指,在給定觀測數據y和第i輪迭代的參數θ(i)時,完全數據的對數似然函數logP(y, γ|θ)的期望,計算期望的概率是隱隨機變量γ的條件概率分布P(γ|y, θ(i))。於是Q函數為:

其中隱隨機變量γ的條件概率分布P(γ|y, θ(i))為:

這里需要計算E(γjk|y, θ(i)):

是當前模型參數θ(i)下第j個觀測數據來自第k個分模型的概率,稱為分模型k對觀測數據yj的響應度。

3、確定EM算法的M步:

M步也就是在得到第i輪的參數θ(i)之后,求下一輪迭代的參數θ(i+1),使函數Q(θ,θ(i))極大:

 得到參數θ(i+1)之后,繼續進行迭代求新的參數,直到Q函數的值不再有明顯變化為止。

(二)高斯混合模型EM算法總結

輸入:觀測數據y1,y2,...,yN,和高斯混合模型:

 輸出:高斯混合模型的參數θ=(α1, α2, ...αK; θ1, θ2, ..., θK),θk=(μk, αk2),k=1,2,...,K。

步驟:

1、取參數的初始值開始迭代;

2、E步:在第i輪迭代過后,根據當前的模型參數θ(i),求高斯分布分模型Ø(y|θk)對觀測數據yj的響應度:

3、M步:計算新一輪迭代的模型參數:

4、重復第2步和第3步,直到收斂而停止迭代。停止迭代的條件是,對於較小的正數ε1、ε2,有:

 

參考資料:

李航:《統計學習方法》


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM