統計學習方法李航---第11章條件隨機場

本文轉載自查看原文 2015-08-28 20:21 2858 機器學習

第11章條件隨機場

條件隨機場(conditional random field, CRF)是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型，其特點是假設輸出隨機變量構成馬爾可夫隨機場。條件隨機場可以用於不同的預測問題，本章主要講述線性鏈(linear chain)條件隨機場在標注問題的應用，這時問題變成了由輸入序列對輸出序列預測的判別模型，形式為對數線性模型，其學習方法通常是極大似然估計或正則化的極大似然估計。

11.1 概率無向圖模型

概率無向圖模型(probabilistic undireoted graphical model)，又稱為馬爾可夫隨機場(Markov random field)，是一個可以由無向圖表示的聯合概率分布。

模型定義

圖(graph)是由結點(node)及連接結點的邊(edge)組成的集合。結點和邊分別記作 v 和 e，結點和邊的集合分別記作 V 和 E，圖記作

G=(V,E)。無向圖是指邊沒有方向的圖。

概率圖模型(probabilistic graphical model)是由圖表示的概率分布。設有聯合概率分布P(Y)，Y是一組隨機變量。由無向圖G=(V,E)表示概率分布P(Y)，即在圖G中，每個結點 v 表示一個隨機變量Y_v；每條邊e表示隨機變量之間的概率依賴關系。

給定一個聯合概率分布P(Y)和表示它的無向圖G。首先定義無向圖表示的隨機變量之間存在的成對馬爾可夫性(pairwise Markov property)、局部馬爾可夫性(local Markov properly)和全局馬爾可夫性(global Markov property)。

成對馬爾可夫性：設u和v是無向圖G中任意兩個沒有邊連接的結點，結點u和v分別對應隨機變量Y_u和Y_v，其他所有結點為O，對應的隨機變量組是Y_O。成對馬爾可夫性是指給定隨機變量組Y_O的條件下隨機變量Y_u和Y_v是條件獨立的，即

局部馬爾可夫性：設v是無向圖G中任意一個結點，W是與v有邊連接的所有結點，O是v, W以外的其他所有結點。分別表示隨機變量Y_v，以及隨機變量組Y_W和Y_O。局部馬爾可夫性是指在給定隨機變量組Y_W的條件下隨機變量Y_v與隨機變量組Y_O是獨立的，即

全局馬爾可夫性:設結點集合A, B是在無向圖G中被結點集合C分開的任意結點集合，如圖11.2所示。結點集合A, B和C所對應的隨機變量組分別是Y_A，Y_B和Y_C。全局馬爾可夫性是指給定隨機變量組Y_C條件下隨機變量組Y_A，Y_B是條件獨立的，即

上述成對的、局部的、全局的馬爾可夫性定義是等價的。

定義11.1（概率無向圖模型） 設有聯合概率分布P(Y)由無向圖G=(V,E)表示，在圖G中，結點表示隨機變量，邊表示隨機變量之間的依賴關系。如果聯合概率分布P(Y)滿足成對、局部或全局馬爾可夫性，就稱此聯合概率分布為概率無向圖模型(probability undirected graphical model)，或馬爾可夫隨機場C Markovrandom field )。

對給定的概率無向圖模型，我們希望將整體的聯合概率寫成若干子聯合概率的乘積的形式，也就是將聯合概率進行因子分解，這樣便於模型的學習與計算。事實上，概率無向圖模型的最大特點就是易於因子分解。

概率無向圖模型的因子分解

定義11.2 (團與最大團) 無向圖G中任何兩個結點均有邊連接的結點子集稱為團(clique)。若C是無向圖G的一個團，井且不能再加進任何一個G的結點使其成為一個更大的團，則稱此C為最大團(maximal clique)。例，

圖11.3表示由4個結點組成的無向圖。圖中由2個結點組成的團有5個：{ Y ₁ ,Y ₂ ,Y ₃ ,Y ₄ }， { Y ₂ ,Y ₃ }，{ Y ₃ ,Y ₄ }，{ Y ₄ ,Y ₂ }和{ Y ₁ ,Y ₃ }。有2個最大團{ Y ₁ ,Y ₂ ,Y ₃ }和{ Y ₂ ,Y ₃ ,Y ₄ }。而 { Y ₁ ,Y ₂ ,Y ₃ ,Y ₄ }不是一個團，因為 Y ₁ 和 Y ₄ 沒有邊連接.

將概率無向圖模型的聯合概率分布表示為其最大團上的隨機變量的函數的乘積形式的操作，稱為概率無向圖模型的因子分解(factorization)。

給定概率無向圖模型，設其無向圖為G，C為G上的最大團，Y _C表示C對應的隨機變量。那么概率無向圖模型的聯合概率分布P(Y)可寫作圖中所有最大團C上的函數

的乘積形式，即

其中，Z是規范化因子(normalization factor)，

規范化因子保證P(Y)構成一個概率分布，函數

稱為勢函數(potenrial function)，要求是嚴格正的，通常定義為指數函數：

定理11.1 (Hammersley-CIifford定理) 概率無向圖模型的聯合概率分布 P(Y)可以表示為如下形式:

C是無向圖的最大團， Y _C 是C的結點對應的隨機變量，

是C上定義的嚴格正函數，乘積是在無向圖所有的最大團上進行的。

11.2條件隨機場的定義與形式

條件隨機場的定義

條件隨機場(conditional random field)是給定隨機變量X條件下，隨機變量 Y的馬爾可夫隨機場。這里主要介紹定義在線性鏈上的特殊的條件隨機場，稱為線性鏈條件隨機場(linear chain conditional random field )。在條件概率模型P(Y|X)中，Y是輸出變量，表示標記

序列，也把標記序列稱為狀態序列， X是輸入變量，表示需要標注的觀測序列。學習時，利用訓練數據集通過極大似然估計或正則化的極大似然估計得到條件概率模型；預測時，對於給定的輸入序列x，求出條件概率最大的輸出序列。

定義11.3 (條件隨機場) 設X與Y是隨機變量，P(Y | X)是在給定X的條件下Y的條件概率分布。若隨機變量Y構成一個由無向圖G=(V,E)表示的馬爾可夫隨機場，即

對任意結點v成立，則稱條件概率分布P(Y|X)為條件隨機場。式中w~v表示在圖G=(V,E)中與結點v有邊連接的所有結點w，w ！= v表示結點v以外的所有結點， Y _v ， Y _u 與 Y _w 為結點v，u與w對應的隨機變量。

現實中，一般假設X和Y有相同的圖結構。線性鏈條件隨機場的情況為

在此情況下，最大團是相鄰兩個結點的集合。如下圖所示

定義11.4(線性鏈條件隨機場) 設X=(X ₁,X ₂,...,X _n)，Y= (Y ₁ ,Y ₂ ,...,Y _n ) 為線性鏈表示的隨機變量序列，若在給定隨機變量序列X的條件下，隨機變量序列Y的條件概率分布P(Y I X)構成條件隨機場。即滿足馬爾可夫性

則稱P(Y I X)為線性鏈條件隨機場。

條件隨機場的參數化形式

即因子分解式，各因子是定義在相鄰兩個結點上的函數。

定理11.2(線性鏈條件隨機場的參數化形式) 設P(Y}X)為線性鏈條件隨機場，則在隨機變量X取值為x的條件下，隨機變量Y取值為Y的條件概率具有如下形式:

式中，t _k和s _l是特征函數，

和 u _l 是對應的權值.Z(x)是規范化因子，求和是在所有可能的輸出序列上進行的..

上式是線性鏈條件隨機場模型的基本形式，表示給定輸入序列x，對輸出序列y預測的條件概率。 t _k 是定義在邊上的特征函數，稱為轉移特征，依賴於當前和前一個位置， s _l 是定義在結點上的特征函數，稱為狀態特征，依賴於當前位置。兩者,都依賴於位置，是局部特征函數。通常，特征函數 t _k 和s _l 取值為1或0；當滿足特征條件時取值為1，否則為0。條件隨機場完全由特征函數和對應的權值確定。

條件隨機場的簡化形式

可以對同一個特征在各個位置求和，將局部特征函數轉化為一個全局特征函數，這樣就可以將條件隨機場寫成權值向量和特征向量的內積形式，即條件隨機場的簡化形式。

首先將轉移特征和狀態特征及其權值用統一的符號表示。設有K ₁ 個轉移特征，K₂個狀態特征，K= K ₁ + K ₂ ,，記