第11章 條件隨機場
條件隨機場(conditional random field, CRF)是給定一組輸入隨機變量條件下
另一組輸出隨機變量的條件概率分布模型,其特點是假設輸出隨機變量構成馬爾
可夫隨機場。條件隨機場可以用於不同的預測問題,本章
主要講述線性鏈(linear chain)條件隨機場
在標注問題的
應用
,這時問題變成了由輸入
序列對輸出序列預測的判別模型,形式為對數線性模型,其學習方法通常是極
大似然估計或正則化的極大似然估計。
11.1 概率無向圖模型
概率無向圖模型(probabilistic undireoted graphical model),又稱為馬爾可夫
隨機場(Markov random field),是一個可以由無向圖表示的聯合概率分布。
模型定義
圖(graph)是由結點(node)及連接結點的邊(edge)組成的集合。結點和邊
分別記作 v 和 e,結點和邊的集合分別記作 V 和 E,圖記作
G=(V,E)。無向圖是
指邊沒有方向的圖。
概率圖模型(probabilistic graphical model)是由圖表示的概率分布。設有聯合概率分布P(Y),Y是一組隨機變量。由無向圖G=(V,E)表示概率分布P(Y),即在圖G中,每個結點 v 表示一個隨機變量Yv;每條邊e表示隨機變量之間的概率依賴關系。
給定一個聯合概率分布P(Y)和表示它的無向圖G。首先定義無向圖表示的
隨機變量之間存在的成對馬爾可夫性(pairwise Markov property)、局部馬爾可夫
性(local Markov properly)和全局馬爾可夫性(global Markov property)。
成對馬爾可夫性:設u和v是無向圖G中任意兩個沒有邊連接的結點,結點u和v分別對應隨機變量Yu和Yv,其他所有結點為O,對應的隨機變量組是YO。成對馬爾可夫性是指給定隨機變量組YO的條件下隨機變量Yu和Yv是條件獨立的,即
局部馬爾可夫性:設v是無向圖G中任意一個結點,W是與v有邊連接的所有結點,O是v, W以外的其他所有結點。分別表示隨機變量Yv,以及隨機變量組YW和YO。局部馬爾可夫性是指在給定隨機變量組YW的條件下隨機變量Yv與隨機變量組YO是獨立的,即

全局馬爾可夫性:設結點集合A, B是在無向圖G中被結點集合C分開的任意結點集合,如圖11.2所示。結點集合A, B和C所對應的隨機變量組分別是YA,YB和YC。全局馬爾可夫性是指給定隨機變量組YC條件下隨機變量組YA,YB是條件獨立的,即
上述成對的、局部的、全局的馬爾可夫性定義是等價的。
定義11.1(概率無向圖模型) 設有聯合概率分布P(Y)由無向圖G=(V,E)表示,在圖G中,結點表示隨機變量,邊表示隨機變量之間的依賴關系。如果聯合概率分布P(Y)滿足成對、局部或全局馬爾可夫性,就稱此聯合概率分布為概率無向圖模型(probability undirected graphical model),或馬爾可夫隨機場C Markovrandom field )。
對給定的概率無向圖模型,我們希望將整體的聯合概率寫成若干子聯合概
率的乘積的形式,也就是將聯合概率進行因子分解,這樣便於模型的學習與計
算。事實上,概率無向圖模型的最大特點就是易於因子分解。
概率無向圖模型的因子分解
定義11.2 (團與最大團) 無向圖G中任何兩個結點均有邊連接的結點子集
稱為團(clique)。若C是無向圖G的一個團,井且不能再加進任何一個G的結點
使其成為一個更大的團,則稱此C為最大團(maximal clique)。例,
圖11.3表示由4個結點組成的無向圖。圖中由2個結點組成的團有5個:{
Y
1
,Y
2
,Y
3
,Y
4
},
{
Y
2
,Y
3
},{
Y
3
,Y
4
},{
Y
4
,Y
2
}和{
Y
1
,Y
3
}。有2個最大團{
Y
1
,Y
2
,Y
3
}和{
Y
2
,Y
3
,Y
4
}。而
{
Y
1
,Y
2
,Y
3
,Y
4
}不是一個團,因為
Y
1
和
Y
4
沒有邊連接.
將概率無向圖模型的聯合概率分布表示為其最大團上的隨機變量的函數的
乘積形式的操作,稱為概率無向圖模型的因子分解(factorization)。
給定概率無向圖模型,設其無向圖為G,C為G上的最大團,Y
C表示C對
應的隨機變量。那么概率無向圖模型的聯合概率分布P(Y)可寫作圖中所有最大
團C上的函數
的乘積形式,即
其中,Z是規范化因子(normalization factor),
規范化因子保證P(Y)構成一個概率分布,函數
稱為勢函數(potenrial
function),要求是嚴格正的,通常定義為指數函數:
定理11.1 (Hammersley-CIifford定理)
概率無向圖模型的聯合概率分布
P(Y)可以表示為如下形式:
C是無向圖的最大團,
Y
C
是C的結點對應的隨機變量,
是C上定
義的嚴格正函數,乘積是在無向圖所有的最大團上進行的。
11.2條件隨機場的定義與形式
條件隨機場的定義
條件隨機場(conditional random field)是給定隨機變量X條件下,隨機變量
Y的馬爾可夫隨機場。這里主要介紹定義在線性鏈上的特殊的條件隨機場,稱為
線性鏈條件隨機場(linear chain conditional random field )。
在條件概率模型P(Y|X)中,Y是輸出變量,表示標記
序列,
也把標記序列稱為狀態序列,
X是輸入變量,表示需要標注的觀測序列
。學習時,利用訓練數據集通過極大似然估計或正則化的極大
似然估計得到條件概率模型;預測時,對於給定的輸入序列x,求出條
件概率最大的輸出序列。
定義11.3 (條件隨機場) 設X與Y是隨機變量,P(Y | X)是在給定X的條
件下Y的條件概率分布。若隨機變量Y構成一個由無向圖G=(V,E)表示的馬爾
可夫隨機場,即
對任意結點v成立,則稱條件概率分布P(Y|X)為條件隨機場。式中w~v表示在
圖G=(V,E)中與結點v有邊連接的所有結點w,w != v表示結點v以外的所有結
點,
Y
v
,
Y
u
與
Y
w
為結點v,u與w對應的隨機變量。
現實中,一般假設X和Y有相同的圖結構。
線性鏈條件隨機場
的情況為
在此情況下,最大團是相鄰兩個結點的
集合。如下圖所示
定義11.4(線性鏈條件隨機場) 設X=(X
1,X
2,...,X
n),Y=
(Y
1
,Y
2
,...,Y
n
)
為線性鏈表示的隨機變量序列,若在給定隨機變量序列X的條件下,隨機變量序
列Y的條件概率分布P(Y I X)構成條件隨機場。即滿足馬爾可夫性
則稱P(Y I X)為線性鏈條件隨機場
。
條件隨機場的參數化形式
即因子分解式,各因子
是定義在相鄰兩個結點上的函數。
定理11.2(線性鏈條件隨機場的參數化形式) 設P(Y}X)為線性鏈條件隨
機場,則在隨機變量X取值為x的條件下,隨機變量Y取值為Y的條件概率具有
如下形式:
式中,t
k和s
l是特征函數,
和
u
l
是對應的權值.Z(x)是規范化因子,求和是
在所有可能的輸出序列上進行的..
上式是線性鏈條件隨機場模型的基本形式,表示給定輸入
序列x,對輸出序列y預測的條件概率。
t
k
是定義在邊
上的特征函數,稱為轉移特征,依賴於當前和前一個位置,
s
l
是定義在結點上的
特征函數,稱為狀態特征,依賴於當前位置。兩者,都依賴於位置,是局部特征
函數。通常,特征函數
t
k
和s
l
取值為1或0;當滿足特征條件時取值為1,否則
為0。條件隨機場完全由特征函數和對應的權值確定。
條件隨機場的簡化形式
可以對同一個特征在各個位置求和,將局部特征函數轉化
為一個全局特征函數,這樣就可以將條件隨機場寫成權值向量和特征向量的內積
形式,即條件隨機場的簡化形式。
首先將轉移特征和狀態特征及其權值用統一的符號表示。設有K
1
個轉移特征,K2個狀態特征,K=
K
1
+
K
2
,,記
然后,對轉移與狀態特征在各個位置i求和,記作
對應的權值為,
條件隨機場為,
以向量形式表示為,
則條件隨機場的向量形式為
條件隨機場的矩陣形式
引
進特殊的起點和終點狀態標記y
0
=start , y
n+1
=stop。
對觀測序列x的每一個位置i,定義一個m階矩陣(m是標記yi
取值的個數)
條件概率為
注意,
y
0
=start , y
n+1
=stop
表示開始狀態與終止狀態,Zw(x)是
以start為起點stop為終點通過狀態的所有路徑y1,y2,...,yn的非規范化概率
之和。
11.3 條件隨機場的概率計算問題
條件隨機場的概率計算問題是給定條件隨機場P(YIX),輸入序列x和輸出
序列Y,計算條件概率P(Yi=yi | x ),P(
Y
i-1
=y
i-1
,
Y
i
=y
i
| x
)以及相應的數學期望
的問題。
前向-后向算法
對每個指標i = 0,1,...,n + 1,定義前向向量
a
i(y
i | x)表示在位置i的標記是
y
i
並且到位置i的前部分標記序列的非規范化概
率,
y
i
可取的值有m個,所以
a
i
是m維列向量。
定義后向向量
表示在位置i的標記是
y
i
並且從i+1到n的后部分標記序列的非規范化概
率
。
可以得到
按照前向-后向向量的定義,很容易計算標記序列在位置i是標記
y
i
的條件概
率和在位置i-1與i是標記
y
i-1
和
y
i
的條件概率:
利用前向-后向向量,可以計算特征函數關於聯合分布P(X,Y)和條件分布
P(Y I X)的數學期望。
對於給定的觀測序列x與標記序列Y,可以通
過一次前向掃描和一次后向掃描計算所有的概
率和特征的期望。
11.4 條件隨機場的學習算法
條件隨機場模型實際上是定義在時序數據上的對數線形模型,其學習
方法包括極大似然估計和正則化的極大似然估計。
改進的迭代尺度法
通過極大化訓練數據的對數似然函數來求模型參數。
條件隨機場模型的訓練數據的對數似然函數為
改進的迭代尺度法通過迭代的方法不斷優化對數似然函數改變量的下界,達到極大化對數似然函數的目的。
推導可得,
關於轉移特征的更新方程為
T(x,y)是在數據(x,y)中出現所有特征數的總和:
擬牛頓法
對於條件
隨機場模型,
學習的優化目標函數是
其梯度函數是
11.5 條件隨機場的預測算法
條件隨機場的預測問題是給定條件隨機場P(Y | X)和輸入序列(觀測序列)x,
求條件概率最大的輸出序列(標記序列) y*,即對觀測序列進行標注。
根據條件隨機場的向量形式,
於是,條件隨機場的預測問題成為求非規范化概率最大的最優路徑問題
根據維特比算法進行求解。