http://www.2cto.com/kf/201605/512286.html
無向圖
無向圖就是指邊沒有方向的圖,這個圖是有節點和連接節點的邊組成的集合,像下面這樣:

一組隨機變量Y={Y1,Y2,...,Yn}, 具有聯合概率分布P(Y),無向圖中的節點表示一個個隨機變量,邊表示隨機變量之間的依賴關系。節點和邊分別記作v和e,節點和邊的集合分別記作V和E,於是無向圖就記作G=(V, E)。
馬爾可夫隨機場(MRF)
成對馬爾可夫性:
無向圖G=(V,E)中假設有兩個不連接的節點u和v,其分別對應隨機變量Yu和Yv,剩余的節點記為O,對應隨機變量為YO。u和v滿足成對馬爾科夫性的條件是:(局部馬爾科夫性和全局馬爾科夫性與成對馬爾科夫性等價)

即在給定YO的情況下,Yu與Yv是獨立的。
如果無向圖G=(V,E)的任意兩個節點均滿足成對馬爾科夫性,則G是一個馬爾科夫隨機場。
條件隨機場(CRF)
X,Y是隨機變量,分別代表輸入和輸出,P(Y|X)是在給定X的條件下Y的條件概率分布。若在給定輸入X的情況下,隨機變量Y構成的無向圖G=(V,E)是一個馬爾科夫隨機場,那么P(Y|X)為條件隨機場。
馬爾科夫隨機場與條件隨機場的比較
MRF關注聯合概率分布,CRF關注條件概率分布。所以MRF屬於生成模型,而CRF屬於判別模型。生成模型本身比判別模型描述能力強,因為聯合概率分布可以推導出條件概率分布:

線性鏈條件隨機場
設X = (X1, X2,..., Xn), Y = (Y1, Y2, ..., Yn)均為線性鏈表示的隨機變量序列,若在給定隨機變量序列X的條件下,隨機變量序列Y的條件概率分布P(Y|X)構成條件隨機場,即滿足馬爾可夫性:
P(Yi| X, Y1, ..., Yi-1, Yi+1, ...., Yn)= P(Yi | X, Yi-1, Yi+1)
i= 1, 2, ..., n (在i=1和n時只考慮單邊)
則稱P(Y|X)為線性鏈條件隨機場。
上面的等式意思就是說Yi的概率只與Yi前后連接的Yi-1和Yi+1有關,示意圖如下:

定義:線性鏈條件隨機場的參數化形式
設P(Y|X)為線性鏈條件隨機場,則在隨機變量X取值為x(x表示的是一個觀察序列)的條件下,隨機變量Y取值為y(y表示的是一個標注序列)的條件概率具有如下形式:

其中,

式中,tk和sl是特征函數,特征函數tk和sl取值為1或0;當滿足特征條件時取值為1,否則為0,λk和μl是對應的權值,k代表的是第k個轉移特征函數,l表示的是第l個狀態特征函數,i表示的是序列y中第i個節點。Z(x)是規范化因子,相當於是把條件概率歸一化,求和是在所有可能的標注序列y上進行的。
t(yi-1, yi, x, i)表達“在給定觀測x,從上個節點i-1標記為yi-1轉移到節點i標記為yi的情況”
s(yi, x, i)表達“當前節點i標記為yi的情況”
實際應用的例子:
http://www.jianshu.com/p/55755fc649b1
詞性標注問題(就是給一個句子中的每個單詞注明詞性),例如:
“Bob drank coffee at Starbucks”這個句子序列標注后的詞性序列為:(名詞,動詞,名詞,介詞,名詞)
句子序列是觀察序列,標注的詞性序列是標注序列
x 表示的是我們要標注詞性的句子
i 用來表示句子x中第i個單詞
yi-1 給第i-1個單詞標注的詞性
yi 給第i個單詞標注的詞性
t(yi-1, yi, x, i)就表示的是句子x中第i-1個單詞標注的詞性yi-1到第i個單詞標注的詞性yi這么一個情況,加上權重λ后λt(yi-1, yi, x, i)就表示的是第i-1個單詞標注為詞性yi-1到第i個單詞標注為詞性yi的可能性,例如動詞后面接名詞的可能性較大,接動詞可能性較小
s(yi, x, i)表示的是句子x中第i個單詞標記為詞性為yi的這么一個情況,加上權重μ后μs(yi, x, i)表示的是第i個單詞被標注為詞性yi的可能性
CRF簡單例子:
輸入觀察序列為X = (X1, X2, X3),輸出標記序列為 Y = (Y1, Y2, Y3), Y1, Y2, Y3 的取值空間為 {1, 2}。特征函數如下:


t1~t5表示5個轉移函數,對應的權值為λ1~λ5;s1~s4表示4個狀態函數,對應的權值為μ1~μ4。tk和sk滿足特征條件時取值為1,否則為0。
上面這些式子其實就表示下面這個圖:

比如某一個序列y = (y1, y2, y3) = (1, 2, 2),那么這個序列出現的非規范化條件概率(即沒有除以規范化因子的條件概率)就是μ1*s1+λ1*t1+μ2*s2+λ5*t5+μ4*s4 = 3.2 (按照圖上的順序走就可以了)
由於某個序列它沒有經過的路線或者狀態對應的tk和sk的值都為0,所以所有可能的序列的非規范化條件概率(即沒有除以規范化因子的條件概率)均可以表示為:

第一項k從1到5表示t1~t5這5個轉移函數以及對應的權值λ1~λ5,第二項k從1到4表示s1~s4這4個狀態函數以及對應的權值μ1~μ4,tk和sk滿足特征條件時取值為1,否則為0。
