我講EM算法的大概流程主要三部分:需要的預備知識、EM算法詳解和對EM算法的改進。
一、EM算法的預備知識
1、極大似然估計
(1)舉例說明:經典問題——學生身高問題
我們需要調查我們學校的男生和女生的身高分布。 假設你在校園里隨便找了100個男生和100個女生。他們共200個人。將他們按照性別划分為兩組,然后先統計抽樣得到的100個男生的身高。假設他們的身高是服從高斯分布的。但是這個分布的均值u和方差∂2我們不知道,這兩個參數就是我們要估計的。記作θ=[u, ∂]T。
問題:我們知道樣本所服從的概率分布的模型和一些樣本,而不知道該模型中的參數。
我們已知的有兩個:(1)樣本服從的分布模型(2)隨機抽取的樣本 需要通過極大似然估計求出的包括:模型的參數
總的來說:極大似然估計就是用來估計模型參數的統計學方法。
(2)如何估計
問題數學化: (1)樣本集X={x1,x2,…,xN} N=100 (2)概率密度:p(xi|θ)抽到男生i(的身高)的概率 100個樣本之間獨立同分布,所以我同時抽到這100個男生的概率就是他們各自概率的乘積。就是從分布是p(x|θ)的總體樣本中抽取到這100個樣本的概率,也就是樣本集X中各個樣本的聯合概率,用下式表示:
這個概率反映了,在概率密度函數的參數是θ時,得到X這組樣本的概率。 需要找到一個參數θ,其對應的似然函數L(θ)最大,也就是說抽到這100個男生(的身高)概率最大。這個叫做θ的最大似然估計量,記為
(3)求最大似然函數估計值的一般步驟
首先,寫出似然函數:
其次,對似然函數取對數,並整理:
然后,求導數,令導數為0,得到似然方程;
最后,解似然方程,得到的參數即為所求。
(4)總結
多數情況下我們是根據已知條件來推算結果,而極大似然估計是已經知道了結果,然后尋求使該結果出現的可能性最大的條件,以此作為估計值。
2、Jensen不等式
(1)定義
設f是定義域為實數的函數,如果對於所有的實數x。如果對於所有的實數x,f(x)的二次導數大於等於0,那么f是凸函數。 Jensen不等式表述如下: 如果f是凸函數,X是隨機變量,那么:E[f(X)]>=f(E[X]) 。當且僅當X是常量時,上式取等號。
(2)舉例
圖中,實線f是凸函數,X是隨機變量,有0.5的概率是a,有0.5的概率是b。X的期望值就是a和b的中值了,圖中可以看到E[f(X)]>=f(E[X])成立。 Jensen不等式應用於凹函數時,不等號方向反向。
二、傳統EM算法詳述
1、問題描述
我們抽取的100個男生和100個女生樣本的身高,但是我們不知道抽取的那200個人里面的每一個人到底是從男生的那個身高分布里面抽取的,還是女生的那個身高分布抽取的。 用數學的語言就是,抽取得到的每個樣本都不知道是從哪個分布抽取的。 這個時候,對於每一個樣本,就有兩個東西需要猜測或者估計: (1)這個人是男的還是女的?(2)男生和女生對應的身高的高斯分布的參數是多少?
EM算法要解決的問題是: (1)求出每一個樣本屬於哪個分布 (2)求出每一個分布對應的參數
2、舉例說明
身高問題使用EM算法求解步驟:
(1)初始化參數:先初始化男生身高的正態分布的參數:如均值=1.7,方差=0.1
(2)計算每一個人更可能屬於男生分布或者女生分布;
(3)通過分為男生的n個人來重新估計男生身高分布的參數(最大似然估計),女生分布也按照相同的方式估計出來,更新分布。
(4)這時候兩個分布的概率也變了,然后重復步驟(1)至(3),直到參數不發生變化為止。
3、算法推導
已知:樣本集X={x(1),…,x(m))},包含m個獨立的樣本;
未知:每個樣本i對應的類別z(i)是未知的(相當於聚類);
輸出:我們需要估計概率模型p(x,z)的參數θ;
目標:找到適合的θ和z讓L(θ)最大。
要使L(θ)最大,我們可以不斷最大化下界J,來使得L(θ)不斷提高,達到最大值。
問題:
什么時候下界J(z,Q)與L(θ)在此點θ處相等?
根據Jensen不等式,自變量X是常數,等式成立。即:
由於,則可以得到:分子的和等於c
在固定參數θ后,使下界拉升的Q(z)的計算公式,解決了Q(z)如何選擇的問題。這一步就是E步,建立L(θ)的下界。接下來的M步,就是在給定Q(z)后,調整θ,去極大化L(θ)的下界J。
4、算法流程
1)初始化分布參數θ; 重復以下步驟直到收斂:
E步驟:根據參數初始值或上一次迭代的模型參數來計算出隱性變量的后驗概率,其實就是隱性變量的期望。作為隱藏變量的現估計值:
M步驟:將似然函數最大化以獲得新的參數值:
5、總結
期望最大算法(EM算法)是一種從不完全數據或有數據丟失的數據集(存在隱含變量)中求解概率模型參數的最大似然估計方法。
三、EM算法的初始化研究
1、問題描述
EM算法缺陷之一:傳統的EM算法對初始值敏感,聚類結果隨不同的初始值而波動較大。總的來說,EM算法收斂的優劣很大程度上取決於其初始參數。
我看了一篇論文:地址:https://yunpan.cn/cqmW9vurLFmDT 訪問密碼 0e74
本篇論文采用的方法:采用一種基於網格的聚類算法來初始化EM算法。
2、基本思想
基於網格的聚類算法將數據空間的每一維平均分割成等長的區間段, 從而將數據空間分成不相交的網格單元。由於同個網格單元中的點屬於同一類的可能性比較大, 所以落入同一網格單元中的點可被看作一個對象進行處理, 以后所有的聚類操作都在網格單元上進行。 因此,基於網格的聚類過程只與網格單元的個數有關, 聚類的效率得到了很大的提高。
3、算法步驟
(1)定義:
(2)相似度:數據對象間的相似性是基於對象間的距離來計算的。
(3)輸入輸出:
(4)算法步驟
4、總結
我覺得這篇論文的主要思想應該是這樣的:就拿身高舉例。它就是首先做一個預處理,將身高在一個范圍內(例如1.71至1.74)的分成一個網格,再看這個網格占全部數據的多少,以此判斷出該網格為高密度還是低密度,然后循環算出所有網格的,再使用EM算法計算哪些高密度網格,這樣會使整個算法收斂的快一些。還有一些其他的論文也是講的這個。