最大熵模型理論及NLP應用總結

本文轉載自查看原文 2020-10-04 22:10 685

轉自：https://zhuanlan.zhihu.com/p/56414312

最大熵是概率模型學習的一個准則，將其推廣到分類問題得到最大熵模型(maximum entropy model).本部分首先介紹最大熵模型，其次講述其學習算法，包括改進的迭代尺度算法和擬牛頓法，最后介紹最大熵原理在NLP應用。

PART1 最大熵模型

最大熵模型由最大熵原理推導實現。這里首先敘述一般的最大熵原理，然后講解最大熵模型的推導，最后給出最大熵模型學習的形式。

1.最大熵原理

最大熵原理認為，學習概率模型時，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用約束條件來確定概率模型的集合，所以，最大熵原理也可以表述為在滿足約束條件的模型集合中選取熵最大的模型。

2.最大熵模型的推導

最大熵原理是統計學習的一般原理，將它應用到分類得到最大熵模型。

假設分類模型是一個條件概率分布 $P(Y|X)$ ， $X\in \mathcal{X}\subseteq\mathcal{R}^n$ 表示輸入， $Y\subseteq\mathcal{Y}$ 表示輸出， $\mathcal{X}$ 和 $\mathcal{Y}$ 分別是輸入和輸出的集合。這個模型表示的是對於給定的輸入 $X$ ，以條件概率 $P(Y|X)$ 輸出 $Y$ 。

給定一個訓練數據集

$T=\{(x_1,y_1),(x_2,y_2),.......,(x_N,y_N)\}$

學習的目標是用最大熵原理選擇最好的分類模型。

首先考慮模型應該滿足的條件。給定訓練數據集，可以確定聯合分布 $P(X,Y)$ 的經驗分布和邊緣分布 $P(X)$ 的經驗分布，分別以 $\bar{P}(X,Y)$ 和 $\bar{P}(X)$ 表示。這里，

$\bar{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}$

$\bar{P}(X=x)=\frac{v(X=x)}{N}$

其中， $v(X=x,Y=y)$ 表示訓練數據中樣本 $(x,y)$ 出現的頻數，v(X=x)表示訓練數據中輸入 $x$ 出現的頻數， $N$ 表示訓練樣本容量。

用特征函數（feature function） $f(x,y)$ 描述輸入 $x$ 和輸出 $y$ 之間的某一個事實。其定義是

$\begin{equation} f(x,y)=\left\{ \begin{array}{lr} 1,\quad x與y滿足某一事實 \\ 0,\quad 否則 \end{array} \right. \end{equation}$

它是一個二值函數，當 $x$ 和 $y$ 滿足這個事實時取值為1，否則取值為0.

特征函數 $f(x,y)$ 關於經驗分布 $\bar{P}(X,Y)$ 的期望值，用 $E_{\bar{P}}(f)$ 表示

$E_{\bar{P}}(f)=\sum_{x,y}\bar{P}(x,y)f(x,y)$

特征函數 $f(x,y)$ 關於模型 $P(Y|X)$ 與經驗分布 $\bar{P}(X)$ 的期望值，用 $E_{P}(f)$ 表示

$E_P(f)=\sum_{x,y}\bar{P}(x)P(y|x)f(x,y)$

如果模型能夠獲取訓練數據中的信息，那么就可以假設着兩個期望值相等，即

$E_{\bar{P}}(f)=E_P(f)$ (*1)

或

$\sum_{x,y}\bar{P}(x,y)f(x,y)=\sum_{x,y}\bar{P}(x)P(y|x)f(x,y)$ (*2)

將式(*1)和(*2)作為模型學習的約束條件。假如有 $n$ 個特征函數 $f_i(x,y),i=1,2,...,n$ ，那么就有 $n$ 個約束條件。

Definition1:(最大熵模型)

假設滿足所有約束條件的模型集合為

$\mathcal{C}\equiv \{P\in \mathcal{P}|E_P(f_i)=E_{\bar{P}}(f_i),i=1,2,...,n\}$ (*3)

定義在條件概率分布 $P(Y|X)$ 上的條件熵為

$H(P)=-\sum_{x,y} \bar{P}(x)P(y|x)log P(y|x)$ (*4)

則模型集合 $\mathcal{C}$ 中條件熵 $H(P)$ 最大的模型稱為最大熵模型。式中的對數為自然對數。

3.最大熵模型學習的形式

最大熵模型的學習過程就是求解最大熵模型的過程。最大熵模型的學習可以形式化為約束最優化問題。

對於給定的訓練數據集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ 以及特征函數 $f_i(x,y),i=1,2,...,n$ ，最大熵模型的學習等價於約束最優化問題：

$\min_{P\in \mathcal{C}} \quad -H(P)$

$s.t. \quad E_P(f)=E_{\bar{P}}(f)$ (*5)

$\quad \quad \quad \sum_{y}P(y|x)=1$ (*6)

這里，將約束最優化的原始問題轉換為無約束最優化的對偶問題。通過求解對偶問題求解最優化問題。

首先，引進拉格朗日乘子 $w_0,w_1,w_2,...,w_n$ ，定義拉格朗日函數 $L(P,w)$ ：

$L(P,w)=-H(P)+w_0(1-\sum_{y}P(y|x))+\sum_{i=1}^nw_i(E_{P}(f_i)-E_{\bar{P}}(f_i))$ (*7)

原始化的原始問題是

$\min_{P\in \mathcal{C}}\max_wL(P,w)$ （*8）

對偶問題是

$\max_w\min_{P\in\mathcal{C}}L(P,w)$ (*9)

由於拉格朗日函數 $L(P,w)$ 是 $P$ 的凸函數，原始問題(8)的解與對偶問題(9)的解是等價的。這樣，可以通過求解對偶問題(*9)來求解原始問題(*8)。

首先，求解對偶問題（*9）內部的極小化問題 $\min_{P\in\mathcal{C}}L(P,w)$ 。 $\min_{P\in\mathcal{C}}L(P,w)$ 是 $w$ 函數，將其記作

$\Psi(w)=\min_{P\in\mathcal{C}}L(P,w)=L(P_w,w)$ (*10)

具體地，求 $L(P,w)$ 對 $P(y|x)$ 的偏導數

$\frac{\partial L(P,w)}{\partial P(y|x)}=\sum_{x,y}\bar{P}(x)(logP(y|x)+1)-\sum_y w_0-\sum_{x,y}(\bar{P}(x)\sum_{i=1}^nw_if_i(x,y))$

$\quad \quad =\sum_{x,y}\bar{P}(x)(logP(y|x)+1-w_0-\sum_{i=1}^nf_i(x,y))$

令偏導數等於0，在 $\bar{P}(x)>0$ 的情況下，解得

$P(y|x)=exp(\sum_{i=1}^{n}w_if_i(x,y)+w_0-1)=\frac{exp(\sum_{i=1}^n w_i f_i(x,y))}{exp(1-w_0)}$

由於 $\sum_yP(y|x)=1$ ，得

$P_w(y|x)=\frac{1}{Z_w(x)}exp(\sum_{i=1}^nw_if_i(x,y))$ (*11)

其中，

$Z_w(x)=\sum_y exp(\sum_{i=1}^n w_if_i(x,y))$ (*12)

之后，求解對偶問題外部的極大化問題

$\max_w \Psi(w)$

將其解記為 $w^*$ 。

也就是說，可以應用最優化算法求對偶函數 $\Psi(w)$ 的極大化，得到 $w^*$ ，用來表示 $P^*\in C$ 。這里， $P^*=P_{w^*}=P_{w^*}(y|x)$ 是學習到的最優化模型（最大熵模型）。

4.極大似然估計

從以上最大熵模型學習中可以看出，最大熵模型是由式（*11）、式（*12）表示的條件概率分布。下面證明對偶函數的極大化等價於最大熵模型的極大似然估計。

已知訓練數據的經驗概率分布 $\bar{P}(X,Y)$ ，條件概率分布 $P(Y|X)$ 的對數似然函數表示為

$L_{\bar{P}}(P_w)=log \Pi_{x,y} P(y|x)^{\bar{P}(x,y)}=\sum_{x,y}{\bar{P}(x,y)} log P(y|x)$

當條件概率分布 $P(y|x)$ 是最大熵模型（*11）和（*12）時，對數似然函數 $L_{\bar{P}}(P_w)$ 為

$L_{\bar{P}}(P_w)=\sum_{x,y}\bar{P}(x,y)log P(y|x)$

$=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x,y}\bar{P}(x,y)log Z_w(x)=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x}\bar{P}(x)log Z_w(x)$ （*13）

再看對偶函數，由式（*7）及式（*10）可得

$\Psi(w)=\sum_{x,y}\bar{P}(x)P_w(y|x)log P_w(y|x)+\sum_{i=1}^nw_i(\sum_{x,y}\bar{P}(x,y)f_i(x,y)-\sum_{x,y}\bar{P}(x)P_w(y|x)f_i(x,y))$

$=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^nw_if_i(x,y)+\sum_{x,y}\bar{P}(x)P_w(y|x)(logP_w(y|x)-\sum_{i=1}^nw_if_i(x,y))$

$=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^nw_if_i(x,y)+\sum_{x,y}\bar{P}(x)P_w(y|x)log Z_w(x)$

$=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^nw_if_i(x,y)+\sum_{x}\bar{P}(x)log Z_w(x)$ （*14）

比較（*13）和（*14），可得

$\Psi(w)=L_{\bar{P}}(P_w)$

既然對偶函數 $\Psi(w)$ 等價於對數似然函數 $L_{\bar{P}}(P_w)$ ，於是證明了最大熵模型學習中的對偶函數極大化等價於最大熵模型的極大似然估計這一事實。

PART2 學習算法

邏輯斯蒂回歸模型、最大熵模型學習歸結為以似然函數為目標函數的最優化問題，通常通過迭代算法求解。從最優化的觀點看，這時的目標函數具有很好的性質，它是光滑的凸函數，因此多種最優化方法都適用，保證能找到全局最優解。常用的方法有改進的迭代尺度法、梯度下降法、牛頓法或擬牛頓法。

1.改進的迭代尺度法（imporoved iterative scaling,IIS）

$L(w)=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x}\bar{P}(x)log Z_w(x)$

IIS的想法是：假設最大熵模型當前的參數向量是 $w=(w_1,w_2,....,w_n)^T$ ，我們希望找到一個新的參數向量 $w+\delta=(w_1+\delta_1,w_2+\delta_2,...,w_n+\delta_n)^T$ ，使得模型的對數似然函數值增大。如果能有這樣一種參數向量更新的方法 $\tau:w\rightarrow w+\delta$ ，那么就可以重復適用這一方法，直到找到對數似然函數的最大值。

對於給定的經驗分布 $\bar{P}(x,y)$ ，模型參數從 $w$ 到 $w+\delta$ ，對數似然函數的改變量是

$L(w+\delta)-L(w)=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)-\sum_{x}\bar{P}(x)log\frac{Z_{w+\delta}(x)}{Z_w(x)}$

利用不等式

$-log\alpha\geq1-\alpha,\quad \alpha>0$

建立對數似然函數改變量的下界：

$L(w+\delta)-L(w)\geq \sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_{x}\bar{P}(x)\frac{Z_{w+\delta}(x)}{Z_w(x)}$

$=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_{x}\bar{P}(x)\sum_yP_w(y|x)exp(\sum_{i=1}^n\delta_i f_i(x,y))$

將右端記為

$A(\delta|w)=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_{x}\bar{P}(x)\sum_yP_w(y|x)exp(\sum_{i=1}^n\delta_i f_i(x,y))$

於是有

$L(w+\delta)-L(w)\geq A(\delta|w)$

即 $A(\delta|w)$ 是對數似然函數改變量的一個下界。

如果能找到適當的 $\delta$ 使下界 $A(\delta|w)$ 提高，那么對數似然函數也會提高。然而，函數 $A(\delta|w)$ 中的是 $\delta$ 一個向量，含有多個變量，不易同時優化。IIS試圖一次只優化其中一個變量 $\delta_i$ ，而固定其他變量 $\delta_j,i\ne j$ 。

為達到這一目的，IIS進一步降低下界 $A(\delta|w)$ 。具體地，IIS引進一個量 $f^{\ast}(x,y)$ ，

$f^{\ast}(x,y)=\sum_i f_i(x,y)$

這樣

$A(\delta|w)=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_{x}\bar{P}(x)\sum_yP_w(y|x)exp(f^*(x,y)\sum_{i=1}^n\frac{\delta_i f_i(x,y)}{f^*(x,y)})$ (*15)

利用指數函數的凸性以及對任意 $i$ ，有 $\frac{f_i(x,y)}{f^*(x,y)}\geq 0$ 且 $\sum_{i=1}^n\frac{f_i(x,y)}{f^*(x,y)}=1$ 這一事實，根據Jensen不等式，得到

$exp(\sum_{i=1}^n\frac{ f_i(x,y)}{f^*(x,y)}\delta_if^*(x,y))\leq \sum_{i=1}^n\frac{ f_i(x,y)}{f^*(x,y)}exp(\delta_if^*(x,y))$

於是（*15）可改寫為

$A(\delta|w)\geq \sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_{x}\bar{P}(x)\sum_yP_w(y|x)\sum_{i=1}^n\frac{ f_i(x,y)}{f^*(x,y)}exp(\delta_if^*(x,y))$

記上不等式右端為

$B(\delta|w)=\sum_{x,y}\bar{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_{x}\bar{P}(x)\sum_yP_w(y|x)\sum_{i=1}^n\frac{ f_i(x,y)}{f^*(x,y)}exp(\delta_if^*(x,y))$

於是得到

$L(w+\delta)-L(w)\geq B(\delta|w)$

這里， $B(\delta|w)$ 是對數似然函數改變量的一個新的（相對不緊的）下界。

求 $B(\delta|w)$ 對 $\delta_i$ 的偏導數：

$\frac{\partial B(\delta|w)}{\partial \delta_i}=\sum_{x,y}\bar{P}(x,y)f_i(x,y)-\sum_{x}\bar{P}(x)\sum_yP_w(y|x)f_i(x,y)exp(\delta_i f^*(x,y))$ (*16)

在式（*16）里，除 $\delta_i$ 外不含任何其他變量，令偏導數為0得到

$\sum_{x}\bar{P}(x)\sum_yP_w(y|x)f_i(x,y)exp(\delta_i f^*(x,y))=E_{\bar{P}}(f_i)$ (*17)

於是，依次對 $\delta_i$ 求解方程(*17)可以求出 $\delta$ 。

算法（改進的迭代尺度算法IIS）

輸入：特征函數 $f_1,f_2,...,f_n$ ；經驗分布 $\bar{P}(X,Y)$ ，模型 $P_w(y|x)$

輸出：最優參數值 $w_i^*$ ；最優模型 $P_{w^*}$ 。

（1）對所有 $i\in \{1,2,...,n\}$ ，取初值 $w_i=0$

（2）對每一 $i\in \{1,2,..,n\}$ ：

（a）令 $\delta_i$ 是方程

$\sum_{x}\bar{P}(x)\sum_yP_w(y|x)f_i(x,y)exp(\delta_i f^*(x,y))=E_{\bar{P}}(f_i)$

的解，這里，

$f^*(x,y)=\sum_{i=1}^n f_i(x,y)$

（b）更新 $w_i$ 值： $w_i\leftarrow w_i+\delta_i$

（3）如果不是所有 $w_i$ 都收斂，重復步（2）.

PART3 NLP應用

在網絡搜索排名中用到的信息有上千種，如何能把它們結合在一起用好？更普遍的講，在信息處理中，我們常常知道各種各樣但不完全確定的信息，我們需要用一個統一模型將這些信息綜合起來。如何綜合好，是一門學問。

最大熵模型在形式上是最漂亮、最完美的統計模型，在自然語言處理和金融方面有很多有趣的應用。最大熵模型，就是要保留全部的不確定性，將風險降到最小。

早期，由於最大熵模型計算量大，研究人員一般采用一些類似最大熵模型的近似模型。這一近似，最大熵模型就從完美變得不完美了。於是，不少原來熱衷於此的學者又放棄了這種方法。第一個在實際信息處理應用中驗證了最大熵模型的優勢是賓夕法尼亞大學馬庫斯教授的高徒拉納帕提(Adwait Ratnaparkhi).拉納帕提成功之處在於他沒有對最大熵模型進行近似處理，而是找到了幾個最適合最大熵模型而計算量相對不太大的自然語言處理問題，比如詞性標注和句法分析。拉納帕提成功地將上下文信息、詞性（名詞、動詞和形容詞）以及主謂賓等句子成分，通過最大熵模型結合起來，做出了當時世界上最好的詞性標注系統和句法分析器。從拉納帕提的成果中，科學家又看到了最大熵模型解決復雜文字信息處理問題的希望。

在2000年前后，由於計算機速度的提升以及訓練算法的改進，很多復雜的問題，包括句法分析、語言模型和機器翻譯都可以采用最大熵模型了。最大熵模型和一些簡單組合了特征的模型相比，效果可以提升幾個百分點。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 最大熵模型最大熵模型最大熵模型推導最大熵模型介紹 [轉] 理解各種熵&&最大熵模型邏輯回歸與最大熵模型邏輯回歸和最大熵模型最大熵模型原理小結最大熵模型原理小結最大熵模型 Maximum Entropy Model