條件隨機場CRF原理介紹以及Keras實現

本文轉載自查看原文 2019-10-12 11:11 741 Deep Learning

本文是對CRF基本原理的一個簡明的介紹。當然，“簡明”是相對而言中，要想真的弄清楚CRF，免不了要提及一些公式，如果只關心調用的讀者，可以直接移到文末。

圖示 #

按照之前的思路，我們依舊來對比一下普通的逐幀softmax和CRF的異同。

逐幀softmax #

CRF主要用於序列標注問題，可以簡單理解為是給序列中的每一幀都進行分類，既然是分類，很自然想到將這個序列用CNN或者RNN進行編碼后，接一個全連接層用softmax激活，如下圖所示

逐幀softmax並沒有直接考慮輸出的上下文關聯

條件隨機場 #

然而，當我們設計標簽時，比如用s、b、m、e的4個標簽來做字標注法的分詞，目標輸出序列本身會帶有一些上下文關聯，比如s后面就不能接m和e，等等。逐標簽softmax並沒有考慮這種輸出層面的上下文關聯，所以它意味着把這些關聯放到了編碼層面，希望模型能自己學到這些內容，但有時候會“強模型所難”。

而CRF則更直接一點，它將輸出層面的關聯分離了出來，這使得模型在學習上更為“從容”：

CRF在輸出端顯式地考慮了上下文關聯

數學 #

當然，如果僅僅是引入輸出的關聯，還不僅僅是CRF的全部，CRF的真正精巧的地方，是它以路徑為單位，考慮的是路徑的概率。

模型概要 #

假如一個輸入有 $n$ 幀，每一幀的標簽有 $k$ 種可能性，那么理論上就有 $k^{n}$ 中不同的輸出。我們可以將它用如下的網絡圖進行簡單的可視化。在下圖中，每個點代表一個標簽的可能性，點之間的連線表示標簽之間的關聯，而每一種標注結果，都對應着圖上的一條完整的路徑。

4tag分詞模型中輸出網絡圖

而在序列標注任務中，我們的正確答案是一般是唯一的。比如“今天天氣不錯”，如果對應的分詞結果是“今天/天氣/不/錯”，那么目標輸出序列就是bebess，除此之外別的路徑都不符合要求。換言之，在序列標注任務中，我們的研究的基本單位應該是路徑，我們要做的事情，是從 $k^{n}$ 條路徑選出正確的一條，那就意味着，如果將它視為一個分類問題，那么將是 $k^{n}$ 類中選一類的分類問題！

這就是逐幀softmax和CRF的根本不同了：前者將序列標注看成是 $n$ 個 $k$ 分類問題，后者將序列標注看成是 $1$ 個 $k^{n}$ 分類問題。

具體來講，在CRF的序列標注問題中，我們要計算的是條件概率

為了得到這個概率的估計，CRF做了兩個假設：

假設一 該分布是指數族分布。

這個假設意味着存在函數 $f (y_{1}, \dots, y_{n}; x)$ ，使得

其中 $Z (x)$ 是歸一化因子，因為這個是條件分布，所以歸一化因子跟 $x$ 有關。這個 $f$ 函數可以視為一個打分函數，打分函數取指數並歸一化后就得到概率分布。

假設二 輸出之間的關聯僅發生在相鄰位置，並且關聯是指數加性的。

這個假設意味着 $f (y_{1}, \dots, y_{n}; x)$ 可以更進一步簡化為

這也就是說，現在我們只需要對每一個標簽和每一個相鄰標簽對分別打分，然后將所有打分結果求和得到總分。

線性鏈CRF #

盡管已經做了大量簡化，但一般來說， $(3)$ 式所表示的概率模型還是過於復雜，難以求解。於是考慮到當前深度學習模型中，RNN或者層疊CNN等模型已經能夠比較充分捕捉各個 $y$ 與輸入 $x$ 的聯系，因此，我們不妨考慮函數 $g$ 跟 $x$ 無關，那么

這時候 $g$ 實際上就是一個有限的、待訓練的參數矩陣而已，而單標簽的打分函數 $h (y_{i}; x)$ 我們可以通過RNN或者CNN來建模。因此，該模型是可以建立的，其中概率分布變為

這就是線性鏈CRF的概念。

歸一化因子 #

為了訓練CRF模型，我們用最大似然方法，也就是用

作為損失函數，可以算出它等於

其中第一項是原來概率式的分子的對數，它目標的序列的打分，雖然它看上去挺迂回的，但是並不難計算。真正的難度在於分母的對數 $\log Z (x)$ 這一項。

歸一化因子，在物理上也叫配分函數，在這里它需要我們對所有可能的路徑的打分進行指數求和，而我們前面已經說到，這樣的路徑數是指數量級的（ $k^{n}$ ），因此直接來算幾乎是不可能的。

事實上，歸一化因子難算，幾乎是所有概率圖模型的公共難題。幸運的是，在CRF模型中，由於我們只考慮了臨近標簽的聯系（馬爾可夫假設），因此我們可以遞歸地算出歸一化因子，這使得原來是指數級的計算量降低為線性級別。具體來說，我們將計算到時刻 $t$ 的歸一化因子記為 $Z_{t}$ ，並將它分為 $k$ 個部分

其中 $Z_{t}^{(1)}, \dots, Z_{t}^{(k)}$ 分別是截止到當前時刻 $t$ 中、以標簽 $1, \dots, k$ 為終點的所有路徑的得分指數和。那么，我們可以遞歸地計算

它可以簡單寫為矩陣形式

其中 $Z_{t} = [Z_{t}^{(1)}, \dots, Z_{t}^{(k)}]$ ；而 $G$ 是對矩陣 $g$ 各個元素取指數后的矩陣（前面已經說過，最簡單的情況下， $g$ 只是一個矩陣，代表某個標簽到另一個標簽的分數），即 $G_{i j} = e^{g_{i j}}$ ；而 $H (y_{t + 1} | x)$ 是編碼模型 $h (y_{t + 1} | x)$ （RNN、CNN等）對位置 $t + 1$ 的各個標簽的打分的指數，即 $H (y_{t + 1} | x) = e^{h (y_{t + 1} | x)}$ ，也是一個向量。式 $(10)$ 中， $Z_{t} G$ 這一步是矩陣乘法，得到一個向量，而 $\otimes$ 是兩個向量的逐位對應相乘。

歸一化因子的遞歸計算圖示。從t到t+1時刻的計算，包括轉移概率和j+1節點本身的概率

如果不熟悉的讀者，可能一下子比較難接受 $(10)$ 式。讀者可以把 $n = 1, n = 2, n = 3$ 時的歸一化因子寫出來，試着找它們的遞歸關系，慢慢地就可以理解 $(10)$ 式了。

動態規划 #

寫出損失函數 $- \log P (y_{1}, \dots, y_{n} | x)$ 后，就可以完成模型的訓練了，因為目前的深度學習框架都已經帶有自動求導的功能，只要我們能寫出可導的loss，就可以幫我們完成優化過程了。

那么剩下的最后一步，就是模型訓練完成后，如何根據輸入找出最優路徑來。跟前面一樣，這也是一個從 $k^{n}$ 條路徑中選最優的問題，而同樣地，因為馬爾可夫假設的存在，它可以轉化為一個動態規划問題，用viterbi算法解決，計算量正比於 $n$ 。

動態規划在本博客已經出現了多次了，它的遞歸思想就是：一條最優路徑切成兩段，那么每一段都是一條（局部）最優路徑。在本博客右端的搜索框鍵入“動態規划”，就可以得到很多相關介紹了，所以不再重復了～

實現 #

經過調試，基於Keras框架下，筆者得到了一個線性鏈CRF的簡明實現，這也許是最簡短的CRF實現了。這里分享最終的實現並介紹實現要點。

實現要點 #

前面我們已經說明了，實現CRF的困難之處是 $- \log P (y_{1}, \dots, y_{n} | x)$ 的計算，而本質困難是歸一化因子部分 $Z (x)$ 的計算，得益於馬爾科夫假設，我們得到了遞歸的 $(9)$ 式或 $(10)$ 式，它們應該已經是一般情況下計算 $Z (x)$ 的計算了。

那么怎么在深度學習框架中實現這種遞歸計算呢？要注意，從計算圖的視角看，這是通過遞歸的方法定義一個圖，而且這個圖的長度還不固定。這對於pytorch這樣的動態圖框架應該是不為難的，但是對於tensorflow或者基於tensorflow的Keras就很難操作了（它們是靜態圖框架）。

不過，並非沒有可能，我們可以用封裝好的rnn函數來計算！我們知道，rnn本質上就是在遞歸計算

新版本的tensorflow和Keras都已經允許我們自定義rnn細胞，這就意味着函數 $f$ 可以自行定義，而后端自動幫我們完成遞歸計算。於是我們只需要設計一個rnn，使得我們要計算的 $Z$ 對應於rnn的隱藏向量！

這就是CRF實現中最精致的部分了。

至於剩下的，是一些細節性的，包括：

1、為了防止溢出，我們通常要取對數，但由於歸一化因子是指數求和，所以實際上是這樣的格式，它的計算技巧是：

tensorflow和Keras中都已經封裝好了對應的logsumexp函數了，直接調用即可；

2、對於分子（也就是目標序列的得分）的計算技巧，在代碼中已經做了注釋，主要是通過用“目標序列”點乘“預測序列”來實現取出目標得分；

3、關於變長輸入的padding部分如何進行mask？我覺得在這方面Keras做得並不是很好。為了簡單實現這種mask，我的做法是引入多一個標簽，比如原來是s、b、m、e四個標簽做分詞，然后引入第五個標簽，比如x，將padding部分的標簽都設為x，然后可以直接在CRF損失計算時忽略第五個標簽的存在，具體實現請看代碼。

代碼速覽 #

純Keras實現的CRF層，歡迎使用～

# -*- coding:utf-8 -*-

from keras.layers import Layer
import keras.backend as K


class CRF(Layer):
    """純Keras實現CRF層
    CRF層本質上是一個帶訓練參數的loss計算層，因此CRF層只用來訓練模型，
    而預測則需要另外建立模型。
    """
    def __init__(self, ignore_last_label=False, **kwargs):
        """ignore_last_label：定義要不要忽略最后一個標簽，起到mask的效果
        """
        self.ignore_last_label = 1 if ignore_last_label else 0
        super(CRF, self).__init__(**kwargs)
    def build(self, input_shape):
        self.num_labels = input_shape[-1] - self.ignore_last_label
        self.trans = self.add_weight(name='crf_trans',
                                     shape=(self.num_labels, self.num_labels),
                                     initializer='glorot_uniform',
                                     trainable=True)
    def log_norm_step(self, inputs, states):
        """遞歸計算歸一化因子
        要點：1、遞歸計算；2、用logsumexp避免溢出。
        技巧：通過expand_dims來對齊張量。
        """
        states = K.expand_dims(states[0], 2) # (batch_size, output_dim, 1)
        trans = K.expand_dims(self.trans, 0) # (1, output_dim, output_dim)
        output = K.logsumexp(states+trans, 1) # (batch_size, output_dim)
        return output+inputs, [output+inputs]
    def path_score(self, inputs, labels):
        """計算目標路徑的相對概率（還沒有歸一化）
        要點：逐標簽得分，加上轉移概率得分。
        技巧：用“預測”點乘“目標”的方法抽取出目標路徑的得分。
        """
        point_score = K.sum(K.sum(inputs*labels, 2), 1, keepdims=True) # 逐標簽得分
        labels1 = K.expand_dims(labels[:, :-1], 3)
        labels2 = K.expand_dims(labels[:, 1:], 2)
        labels = labels1 * labels2 # 兩個錯位labels，負責從轉移矩陣中抽取目標轉移得分
        trans = K.expand_dims(K.expand_dims(self.trans, 0), 0)
        trans_score = K.sum(K.sum(trans*labels, [2,3]), 1, keepdims=True)
        return point_score+trans_score # 兩部分得分之和
    def call(self, inputs): # CRF本身不改變輸出，它只是一個loss
        return inputs
    def loss(self, y_true, y_pred): # 目標y_pred需要是one hot形式
        mask = 1-y_true[:,1:,-1] if self.ignore_last_label else None
        y_true,y_pred = y_true[:,:,:self.num_labels],y_pred[:,:,:self.num_labels]
        init_states = [y_pred[:,0]] # 初始狀態
        log_norm,_,_ = K.rnn(self.log_norm_step, y_pred[:,1:], init_states, mask=mask) # 計算Z向量（對數）
        log_norm = K.logsumexp(log_norm, 1, keepdims=True) # 計算Z（對數）
        path_score = self.path_score(y_pred, y_true) # 計算分子（對數）
        return log_norm - path_score # 即log(分子/分母)
    def accuracy(self, y_true, y_pred): # 訓練過程中顯示逐幀准確率的函數，排除了mask的影響
        mask = 1-y_true[:,:,-1] if self.ignore_last_label else None
        y_true,y_pred = y_true[:,:,:self.num_labels],y_pred[:,:,:self.num_labels]
        isequal = K.equal(K.argmax(y_true, 2), K.argmax(y_pred, 2))
        isequal = K.cast(isequal, 'float32')
        if mask == None:
            return K.mean(isequal)
        else:
            return K.sum(isequal*mask) / K.sum(mask)

除去注釋和accuracy的代碼，真正的CRF的代碼量也就30行左右，可以說跟哪個框架比較都稱得上是簡明的CRF實現了吧～

用純Keras實現一些復雜的模型，是一件頗有意思的事情。目前僅在tensorflow后端測試通過，理論上兼容theano、cntk后端，但可能要自行微調。

使用案例 #

我的Github中還附帶了一個使用CNN+CRF實現的中文分詞的例子，用的是Bakeoff 2005語料，例子是一個完整的分詞實現，包括viterbi算法、分詞輸出等。

Github地址：https://github.com/bojone/crf/

來源： https://spaces.ac.cn/archives/5542/comment-page-3#comments

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 條件隨機場（CRF）原理和實現線性鏈條件隨機場(CRF)的原理與實現標注-CRF條件隨機場理論的介紹 CRF條件隨機場條件隨機場（CRF）-基礎【算法】CRF(條件隨機場) 條件隨機場（CRF）的理解 CRF(條件隨機場)與Viterbi(維特比)算法原理詳解【中文分詞】條件隨機場CRF CRF 條件隨機場工具包

條件隨機場CRF原理介紹 以及Keras實現