(一)馬爾可夫隨機場(Markov random field,無向圖模型)
(二)條件隨機場(Conditional random field,CRF)
(一)馬爾可夫隨機場
概率圖模型(Probabilistic graphical model,PGM)是由圖表示的概率分布。概率無向圖模型(Probabilistic undirected graphical model)又稱馬爾可夫隨機場(Markov random field),表示一個聯合概率分布,其標准定義為:
設有聯合概率分布 P(V) 由無向圖 G=(V, E) 表示,圖 G 中的節點表示隨機變量,邊表示隨機變量間的依賴關系。如果聯合概率分布 P(V) 滿足成對、局部或全局馬爾可夫性,就稱此聯合概率分布為概率無向圖模型或馬爾可夫隨機場。
設有一組隨機變量 Y ,其聯合分布為 P(Y) 由無向圖 G=(V, E) 表示。圖 G 的一個節點 v∈Vv∈V 表示一個隨機變量 YvYv ,一條邊 e∈Ee∈E 就表示兩個隨機變量間的依賴關系。
1. 成對馬爾可夫性(pairwise Markov property)
設無向圖 G 中的任意兩個沒有邊連接的節點 u 、v ,其他所有節點為 O ,成對馬爾可夫性指:給定 YOYO 的條件下,YuYu 和 YvYv 條件獨立
2. 局部馬爾可夫性(local)
設無向圖 G 的任一節點 v ,W 是與 v 有邊相連的所有節點,O 是 v 、W 外的其他所有節點,局部馬爾可夫性指:給定 YWYW 的條件下,YvYv 和 YOYO 條件獨立
當 P(YO|YW)>0P(YO|YW)>0 時,等價於
如果把等式兩邊的條件里的 YWYW 遮住,P(Yv)=P(Yv|YO)P(Yv)=P(Yv|YO) 這個式子表示 YvYv 和 YOYO 獨立,進而可以理解這個等式為給定條件 YWYW 下的獨立。
3. 全局馬爾可夫性(global)
設節點集合 A 、B 是在無向圖 G 中被節點集合 C 分開的任意節點集合,全局馬爾可夫性指:給定 YCYC 的條件下,YAYA 和 YBYB 條件獨立
這幾個定義是等價的。
4. 概率無向圖模型
無向圖模型的優點在於其沒有隱馬爾可夫模型那樣嚴格的獨立性假設,同時克服了最大熵馬爾可夫模型等判別式模型的標記偏置問題。
(1)有向圖的聯合概率分布
考慮一個有向圖 Gd=(Vd,Ed)Gd=(Vd,Ed) ,隨機變量間的聯合概率分布可以利用條件概率來表示為
其中 vdπivπid 表示節點 vdivid 的父節點的集合。
(2)無向圖的因子分解(Factorization)
不同於有向圖模型,無向圖模型的無向性很難確保每個節點在給定它的鄰節點的條件下的條件概率和以圖中其他節點為條件的條件概率一致。由於這個原因,無向圖模型的聯合概率並不是用條件概率參數化表示的,而是定義為由一組條件獨立的局部函數的乘積形式。因子分解就是說將無向圖所描述的聯合概率分布表達為若干個子聯合概率的乘積,從而便於模型的學習和計算。
實現這個分解要求的方法就是使得每個局部函數所作用的那部分節點可以在 G 中形成一個最大團(maximal clique)。這就確保了沒有一個局部函數是作用在任何一對沒有邊直接連接的節點上的;反過來說,如果兩個節點同時出現在一個團中,則在這兩個節點所在的團上定義一個局部函數來建立這樣的依賴。
無向圖模型最大的特點就是易於因子分解,標准定義為:
將無向圖模型的聯合概率分布表示為其最大團(maximal clique,可能不唯一)上的隨機變量的函數的乘積形式。
給定無向圖 G ,其最大團為 C ,那么聯合概率分布 P(Y) 可以寫作圖中所有最大團 C 上的勢函數(potential function) ψC(YC)ψC(YC) 的乘積形式:
其中 Z 稱為規范化因子,對 Y 的所有可能取值求和,從而保證了 P(Y) 是一個概率分布。要求勢函數嚴格正,通常定義為指數函數
上面的因子分解過程就是 Hammersley-Clifford 定理。
(二)條件隨機場
條件隨機場(Conditional random field,CRF)是條件概率分布模型 P(Y|X) ,表示的是給定一組輸入隨機變量 X 的條件下另一組輸出隨機變量 Y 的馬爾可夫隨機場,也就是說 CRF 的特點是假設輸出隨機變量構成馬爾可夫隨機場。
條件隨機場可被看作是最大熵馬爾可夫模型在標注問題上的推廣。
這里介紹的是用於序列標注問題的線性鏈條件隨機場(linear chain conditional CRF),是由輸入序列來預測輸出序列的判別式模型。
圖片來源:[3]
圖片來源:[2]
圖片來源:[4]
從問題描述上看,對於序列標注問題,X 是需要標注的觀測序列,Y 是標記序列(狀態序列)。在學習過程時,通過 MLE 或帶正則的 MLE 來訓練出模型參數;在測試過程,對於給定的觀測序列,模型需要求出條件概率最大的輸出序列。
如果隨機變量 Y 構成一個由無向圖 G=(V, E) 表示的馬爾可夫隨機場,對任意節點 v∈Vv∈V 都成立,即
對任意節點 vv 都成立,則稱 P(Y|X) 是條件隨機場。式中 w≠vw≠v 表示 w 是除 v 以外的所有節點,w∼vw∼v 表示 w 是與 v 相連接的所有節點。不妨把等式兩遍的相同的條件 X 都遮住,那么式子可以用下圖示意:
很明顯,這就是馬爾可夫隨機場的定義。