Xue & Shen '2003 [2]用兩種序列標注模型——MEMM (Maximum Entropy Markov Model)與CRF (Conditional Random Field)——用於中文分詞;看原論文感覺作者更像用的是MaxEnt (Maximum Entropy) 模型而非MEMM。MEMM是由McCallum et al. '2000 [1]提出MEMM,針對於HMM的兩個痛點:一是其為生成模型(generative model),二是不能使用更加復雜的feature。
1. 前言
首先,將簡要地介紹HMM與MaxEnt模型。
HMM
概率圖模型(probabilistic graphical model, PGM)指用圖表示變量相關(依賴)關系的概率模型,主要分為兩類:
- 有向圖模型或貝葉斯網(Bayesian network),使用有向圖表示變量間的依賴關系;
- 無向圖模型或馬爾可夫網(Markov network),使用無向圖表示變量間相關關系。
監督學習的任務就是學習一個模型,對於給定的輸入\(X\),能預測出類別\(Y\)。所學習到的模型一般可表示為決策函數:
\begin{equation}
Y = f(X)
\label{eq:deci}
\end{equation}
或者為條件概率
\begin{equation}
\arg \mathop{max}\limits_{Y} P(Y|X)
\label{eq:cond}
\end{equation}
監督學習的模型分為生成模型(generative model)與判別模型(discriminative model)。生成模型學習聯合概率分布\(P(X, Y)\),然后通過貝葉斯定理求解條件概率\eqref{eq:cond},而判別模型則是直接學習決策函數\eqref{eq:deci}或條件概率\eqref{eq:cond}。HMM屬於生成模型的有向圖PGM,通過聯合概率建模:
其中,\(S\)、\(O\)分別表示狀態序列與觀測序列。HMM的解碼問題為\(\arg \mathop{max}\limits_{S} P(S|O)\);定義在時刻\(t\)狀態為\(s\)的所有單個路徑\(s_1^t\)中的概率最大值為
則有
上述式子即為(用於解決HMM的解碼問題的)Viterbi算法的遞推式;可以看出HMM是通過聯合概率來求解標注問題的。
最大熵模型
最大熵(Maximum Entropy)模型屬於log-linear model,在給定訓練數據的條件下對模型進行極大似然估計或正則化極大似然估計:
\begin{equation}
P_w(y|x) = \frac{exp \left( \sum_i w_i f_i(x,y) \right)}{Z_w(x)}
\label{eq:me-model}
\end{equation}
其中,\(Z_w(x) = \sum_{y} exp \left( \sum_i w_i f_i(x,y) \right)\)為歸一化因子,\(w\)為最大熵模型的參數,\(f_i(x,y)\)為特征函數(feature function)——描述\((x,y)\)的某一事實。
最大熵模型並沒有假定feature相互獨立,允許用戶根據domain knowledge設計feature。
2. MEMM
MEMM並沒有像HMM通過聯合概率建模,而是直接學習條件概率
\begin{equation}
P(s_t|s_{t-1},o_t)
\label{eq:memm-cond}
\end{equation}
因此,有別於HMM,MEMM的當前狀態依賴於前一狀態與當前觀測;HMM與MEMM的圖模型如下(圖來自於[3]):

一般化條件概率\eqref{eq:memm-cond}為\(P(s|s',o)\)。MEMM用最大熵模型來學習條件概率\eqref{eq:memm-cond},套用模型\eqref{eq:me-model}則有:
\begin{equation}
P(s|s',o) = \frac{ exp \left( \sum_a \lambda_a f_a(o,s) \right)}{ Z(o,s')}
\label{eq:memm-model}
\end{equation}
其中,\(\lambda_a\)為學習參數;\(a=<b,s>\)且\(b\)為feature,\(s\)為destination state;特征函數\(f_a(o,s)\)的示例如下(圖出自於[6]):

類似於HMM,MEMM的解碼問題的遞推式:
但是,MEMM存在着標注偏置問題(label bias problem)。比如,有如下的概率分布(圖來自於[7]):

根據上述遞推式,則概率最大路徑如下:

但是,從全局的角度分析:
- 無論觀測值,State 1 總是更傾向於轉移到State 2;
- 無論觀測值,State 2 總是更傾向於轉移到State 2.
從式子\eqref{eq:memm-model}可以看出MEMM所做的是本地歸一化,導致有更少轉移的狀態擁有的轉移概率普遍偏高,概率最大路徑更容易出現轉移少的狀態。因MEMM存在着標注偏置問題,故全局歸一化的CRF被提了出來[3]。欲知CRF如何,請看下一篇分解。
3. 參考資料
[1] McCallum, Andrew, Dayne Freitag, and Fernando CN Pereira. "Maximum Entropy Markov Models for Information Extraction and Segmentation." Icml. Vol. 17. 2000.
[2] Xue, Nianwen, and Libin Shen. "Chinese word segmentation as LMR tagging." Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. Association for Computational Linguistics, 2003.
[3] Lafferty, John, Andrew McCallum, and Fernando Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." Proceedings of the eighteenth international conference on machine learning, ICML. Vol. 1. 2001.
[4] 李航,《統計學習方法》.
[5] 周志華,《機器學習》.
[6] Nikos Karampatziakis, Maximum Entropy Markov Models.
[7] Ramesh Nallapati, Conditional Random Fields.
