統計學習方法李航---第9章 EM算法及其推廣

本文轉載自查看原文 2015-08-28 18:04 2497 機器學習

第9章 EM算法及其推廣

EM算法是一種迭代算法，用於含有隱變量(hidden variable)的概率模型參數的極大似然估計，或極大后驗概率估計。 EM算法的每次迭代由兩步組成：E步，求期望(expectation)；M步，求極大 ( maximization )，所以這一算法稱為期望極大算法(expectation maximization algorithm)，簡稱EM算法。

9.1 EM算法的引入

一般地，用Y表示觀測隨機變量的數據，Z表示隱隨機變量的數據。Y和Z 連在一起稱為完全數據( complete-data )，觀測數據Y又稱為不完全數據 (incomplete-data)。假設給定觀測數據Y，其概率分布是P(Y | theta)，其中 theta 是需要估計的模型參數，那么不完全數據Y的似然函數是 P(Y | theta) ，對數似然函數 L(theta)=log P(Y | theta)；假設Y和Z的聯合概率分布是P(Y, Z }句，那么完全數據的對數似然函數是log P(Y, Z | theta )。

觀測數據的似然函數為

EM算法通過迭代求 L(theta)=log P(Y | theta) 的極大似然估計。每次迭代包含兩步 E步，求期望；M步，求極大化。

定義9.1 ( Q函數) 完全數據的對數似然函數 log P(Y, Z | theta ) 關於在給定觀測數據Y和當前參數 theta⁽ⁱ⁾ 下對未觀測數據Z的條件概率分布P(Z | Y, theta ⁽ⁱ⁾ )的期望稱為Q函數，即

EM算法說明:

步驟(1)參數的初值可以任意選擇。但需注意EM算法對初值是敏感的。

步驟(2) E步求Q( theta , theta ⁽ⁱ⁾ )。Q函數式中Z是未觀測數據，Y是觀測數據。注意， Q( theta , theta ⁽ⁱ⁾ ) 的第1個變量 theta 表示要極大化的參數，第2個變量 theta ⁽ⁱ⁾ 表示參數的當前估計值。每次迭代實際在求Q函數及其極大。

步驟 (3) M步求 Q( theta , theta ⁽ⁱ⁾ ) 的極大化，得到 theta ⁽ⁱ⁺¹⁾ ，完成一次迭代 theta ⁽ⁱ⁾ -->theta ⁽ⁱ⁺¹⁾。后面將證明每次迭代使似然函數增大或達到局部極值。

步驟(4)給出停止迭代的條件，一般是對較小的正數，若滿足

則停止迭代.

EM算法的導出

通過近似求解觀測數據的對數似然函數的極大化問題來導出EM算法，由此可以清楚地看出EM算法的作用。面對一個含有隱變量的概率模型，目標是極大化觀測數據(不完全數據) Y關於參數 theta

的對數似然函數，即極大化

這一極大化的主要困難是式中有未觀測數據並有包含和(或積分) 的對數。

EM算法是通過迭代逐步近似極大化 L(theta) 的。

每次迭代需要滿足：新估計值 theta能使 L(theta)增加，並逐步達到極大值。i次迭代前后的差值為：

利用jensen不等式可以得出下界

為使 L(theta)極大，選擇 theta ^{(i+1)使B極大，可得，}

等價於EM算法的一次迭代，即求Q函數及其極大化。EM算法是通過不斷求解下界的極大化逼近求解對數似然函數極大化的算法。

EM算法的直觀解釋： 圖中上方曲線為 L(theta) ，下方曲線為 B ( theta , theta ⁽ⁱ⁾ )，為對數似然函數 L(theta) 的下界，且在 theta= theta ⁽ⁱ⁾ 處相等。 EM算法找到下一個點 theta ⁽ⁱ⁺¹⁾ 使函數 B ( theta , theta ⁽ⁱ⁾ ) 極大化，也使函數Q ( theta , theta ⁽ⁱ⁾ ) 極大化。函數B的增加，保證對數似然函數L在每次迭代中也是增加的。EM算法在點 theta ⁽ⁱ⁺¹⁾ 重新計算Q函數值，進行下一次迭代。在這個過程中，對數似然函數 L不斷增大。從圖可以推斷出EM算法不能保證找到全局最優值。

EM算法在非監督學習中的應用

訓練數據只有輸入沒有對應的輸出(X,？)，從這樣的數據學習模型稱為非監督學習問題。EM算法可以用於生成模型的非監督學習，生成模型由聯合概率分布P(X, Y)表示，可以認為非監督學習訓練數據是聯合概率分布產生的數據。X為觀測數據，Y為未觀測數據。

9.2 EM算法的收斂性

定理9.1 設 P(Y | theta) 為觀測數據的似然函數， theta ⁽ⁱ⁾ (i=1, 2,... )為EM算法得到的參數估計序列， P(Y | theta ⁽ⁱ⁾ ) (i=1, 2,... ) ) 為對應的似然函數序列，則 P(Y | theta ⁽ⁱ⁾ ) 是單調遞增的，即

定理9.2

設 P(Y | theta) 為觀測數據的似然函數， theta ⁽ⁱ⁾ (i=1, 2,... )為EM算法得到的參數估計序列， L( theta ⁽ⁱ⁾)= P(Y | theta ⁽ⁱ⁾ ) (i=1, 2,... ) ) 為對應的似然函數序列，

(1)如果 P(Y | theta) 有上界，則 L( theta ⁽ⁱ⁾ ) 收斂到某一值L^*;

(2)在函數Q與L滿足一定條件下，由EM算法得到的參數估計序列 theta ⁽ⁱ⁾ 的收斂值 theta* 是L( theta )的穩定點。

EM算法的收斂性包含關於對數似然函數序列L的收斂性和關於參數估計序列 theta 的收斂性兩層意思，前者並不蘊涵后者。此外，定理只能保證參數估計序列收斂到對數似然函數序列的穩定點，不能保證收斂到極大值點。所以在應用中，初值的選擇變得非常重要，常用的辦法是選取幾個不同的初值進行迭代，然后對得到的各個估計值加以比較，從中選擇最好的。