在概率圖模型中,有一類很重要的模型稱為條件隨機場。這種模型廣泛的應用於標簽—樣本(特征)對應問題。與MRF不同,CRF計算的是“條件概率”。故其表達式與MRF在分母上是不一樣的。
如圖所示,CRF只對 label 進行求和,而不對dataset求和。
1、CRF的likelyhood function
對於給定的數據集以及其對應標記,CRF的 E based on theta 是與 數據集 x[m]有關的,因為x[m]並沒有完全被邊際掉。也就是說,對數據集中的每個數據x[m],E based on theta 都是不一樣的。這是CRF與MRF最大的不同。MRF完全邊際掉了x,所以對任意數據集,E_theta 都相同。以圖像分割中經典的雙牛圖為例:
1、圖像是聚類后的圖像,已經進行了超分割
2、X代表超像素,Y代表標簽
3、Gs代表平均綠強度
4、采用loglinear模型:theta*fi
對於第一個參數,其僅和特征函數1(f1)有關,求導后發現,第一項是數據集特征統計(數據集特征函數期望);第二項是在該theta下,數據集對應label = green的概率乘以綠強度。很好理解1函數的模型期望就是概率。
2、CRF與MRF對比
1、CRF在訓練時,針對每組數據都需要計算E based on model,MRF的E based on model 和單個數據集無關
2、CRF在使用時,針對給定x僅需要計算P(Y|x);MRF計算P(YX),在計算時需要對XY都進行邊緣化。
3、MRF與CRF的先驗
先驗指的是對其參數分布的估計。在貝耶斯多項分布估計中,如果對參數先作出狄利克雷假設,則后續的后驗分布也是狄利克雷的。把這個思想移植到MRF與CRF可以對其學習過程的性質進行改善。
關於參數的先驗有兩種,分別是拉普拉斯先驗和高斯先驗。
其中,delta和beta的作用類似,是分布中的方差。其決定了theta距離0的位置。也就是說該權重的重要程度。而加上先驗分布可以帶來更好的收斂性。
如圖所示,log函數相當於是一個regularity.在theta被訓練集改變的時候,給其一個趨於0的趨勢。
1、拉普拉斯先驗是L1 - regularization, 其有更強的趨勢將數據拉向0, 所以利用拉普拉斯先驗得到參數會更加稀疏,參數的稀疏性代表fi函數沒什么用。換言之,圖中連接label和x的邊無關緊要,可以去除。
2、高斯先驗相當於L2 - regularization. 也可以用於對抗過擬合。