LSTM 原理
CRF 原理
給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型。假設輸出隨機變量構成馬爾科夫隨機場(概率無向圖模型)
在標注問題應用中,簡化成線性鏈條件隨機場,對數線性判別模型,學習方法通常是最大似然估計或正則化的最大似然估計。
概率無向圖模型:
無向圖表示的聯合概率分布。
1. 定義:
成對馬爾科夫性,局部馬爾科夫性,全局馬爾科夫性,
上述三個性質定義等價,主要闡述,三個集合,A, B, C,其中集合A和B表示在無向圖G中被結點集合C分開的任意結點集合
給定隨機變量組Yc的條件下,隨機變量組Ya和Yb是條件獨立的。
滿足三條性質就是的聯合概率分布P(Y)就是聯合概率無向圖模型,如何求這個聯合概率的分布,寫成若干子聯合概率乘積的形式。還好概率無向圖模型能因子分解
2. 因子分解
團:任意兩個節點均有邊連接的結點子集。
最大團:不能再加進任何一個新的結點使其成為更大的團。
因子分解:表示將概率無向圖上的聯合概率分布表示為其最大團上的隨機變量的函數的乘積形式
P(Y)可以寫成圖中所有最大團C上的函數Ψc(Yc)的乘積形式,Z是規范化因子
勢函數要求是嚴格正的,通常是指數函數
3. 條件隨機場的定義:輸入序列來預測輸出序列的判別式模型
P(Y|X) X是需要標注的觀測序列,Y是標記序列。利用訓練集通過極大似然估計得到條件概率模型。在測試過程,對於給定的觀測序列,模型需要求出條件概率最大的輸出序列。
對任意結點v都成立,則P(Y|X)為條件隨機場,就是做了一個假設簡化了計算,只考慮相連,忽略外圍其他邊。
中 w≠v表示 w 是除 v 以外的所有節點,w∼v表示 w 是與 v 相連接的所有節點。
線性鏈條件隨機場的定義:
其中當 i 取 1 或 n 時只考慮單邊。
4. 線性鏈條件隨機場的數學表達式
線性鏈條件隨機場的參數化形式:特征函數及例子
Z(x) 作為規范化因子,是對 y 的所有可能取值求和。
tk特征函數定義在邊上,稱為轉移特征,依賴當前和前一位置,sl特征函數定義在結點上,稱為狀態特征,依賴當前位置。兩者取值0或1,當特征條件滿足為1,不滿足為0,條件隨機場完全有特征函數tk,sl和對應權重確定。
tk和sl相當於給定的特征模板,給定y可以計算出該標記序列的條件概率。
以序列標注為例:
序列標注 vs 分類
序列標注不是簡單的分類,這兩類問題存在非常大的區別
lstm處理特征fc到類別數后直接softmax效果沒有crf好,因為為每一個待標注的位置都當作一個樣本然后進行分類,這樣單點的分類,將會有很大的信息損失,因為一個序列的不同位置之間存在聯系,應該對這個相關性建模。
條件隨機場的簡化形式:
這種雙重求和就表明了對於同一個特征(k),在各個位置(i)上都有定義。將某一特征模板在所有位置上求和的做法相當於在將局部特征轉化為全局特征函數,從而可以寫成內積形式。
矩陣形式:
這種形式依托於線性鏈條件隨機場對應的圖模型僅在兩個相鄰節點之間存在邊。在狀態序列的兩側添加兩個新的狀態 y0=start 、yn+1=stop。
未完待續
線性鏈條件隨機場的解碼問題
解碼問題即預測問題,給定條件隨機場 P(Y|X) 和觀測序列 x ,求最有可能的狀態序列 y* 。與 HMM 類似,使用維特比算法求解。
線性鏈條件隨機場的學習問題
對權重w求導