基於機器學習角度談談CRF
作者:白寧超
2016年8月3日08:39:14
【摘要】:條件隨機場用於序列標注,數據分割等自然語言處理中,表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做語句識別序列標注過程中,對條件隨機場的了解,逐步研究基於自然語言處理方面的應用。成文主要源於自然語言處理、機器學習、統計學習方法和部分網上資料對CRF介紹的相關的相關,最后進行大量研究整理匯總成體系知識。文章布局如下:第一節介紹CRF相關的基礎統計知識;第二節介紹基於自然語言角度的CRF介紹;第三節基於機器學習角度對CRF介紹,第四節基於統計學習角度對相關知識介紹;第五節對統計學習深度介紹CRF,可以作為了解內容。(本文原創,轉載請注明出處:基於機器學習角度談談CRF。)
目錄
【自然語言處理:漫步條件隨機場系列文章(一)】:前戲:一起走進條件隨機場
【自然語言處理:漫步條件隨機場系列文章(二)】:基於自然語言處理角度談談CRF
【自然語言處理:漫步條件隨機場系列文章(三)】:基於機器學習角度談談CRF
【自然語言處理:漫步條件隨機場系列文章(四)】:基於統計學習角度談談CRF
【自然語言處理:漫步條件隨機場系列文章(五)】:條件隨機場知識擴展
1 條件隨機場(可以看作給定觀察值的馬爾科隨機場)
CRF是一種判別式無向圖模型
CRF試圖對多個變量在給定觀測值后的條件概率進行建模,具體來說,若令為觀察序列,
為與之對應的標記序列,則CRF的目標是構建條件概率模型P(Y|X)。
注意:標記變量y是結構型變量,如在自然語言處理的句子標注任務中,觀測數據為句子,標記為相應的詞性序列,具有線性序列結構,在語法分析中,輸出標記是語法樹,具有樹形結構。
令G=<V,E>表示結點與標記變量y中元素一一對應的無向圖,表示與結點v對應標記變量,n(v)表示結點v的領結點,若圖G的每一個變量 都滿足馬爾科夫性,即
,則(y,x)構成一個CRF。
上面形式化在第二章已經通過實例解析介紹過。
2 鏈式條件隨機場
如上面句子標注,因為現象應用中,對標記序列建模時,常有鏈式結構(具體鏈式結構前面有介紹)
與馬爾科夫隨機場定義聯合概率概率的方式類似,CRF使用勢函數和圖結構上的團來定義條件概率P(y|x)給定觀察序列X,所謂團即單個標記變量{}以及相鄰標記變量選擇合適的勢函數,即形如:
的條件概率定義,其中與Q對應的勢函數,
為規范因子,實際中,往往Z不需要獲得精確值。
在CRF中,通過選用勢函數並引入特征函數,條件概率定義如下:
如上參數在第二章有詳細講解。
特征函數:
句子標注為例的轉移特征函數
表示第i個觀察值為“愛”時,相對的標記分別是B,I,其狀態特征函數如下:
表示觀察值x為單字“愛”時,它對應的標注很可能為I
3 參考文獻
【1】 數學之美 吳軍 著
【2】 機器學習 周志華 著
【3】 統計自然語言處理 宗成慶 著(第二版)
【4】 統計學習方法(191---208) 李航
【5】 知乎 網絡資源
4 自然語言相關系列文章
【自然語言處理】:【NLP】揭秘馬爾可夫模型神秘面紗系列文章
【自然語言處理】:【NLP】大數據之行,始於足下:談談語料庫知多少
【自然語言處理】:【NLP】驀然回首:談談學習模型的評估系列文章
【自然語言處理】:【NLP】快速了解什么是自然語言處理
【自然語言處理】:【NLP】自然語言處理在現實生活中運用
聲明:關於此文各個篇章,本人采取梳理扼要,順暢通明的寫作手法。系統閱讀相關書目和資料總結梳理而成,旨在技術分享,知識沉淀。在此感謝原著無私的將其匯聚成書,才得以引薦學習之用。其次,本人水平有限,權作知識理解積累之用,難免主觀理解不當,造成讀者不便,基於此類情況,望讀者留言反饋,便於及時更正。本文原創,轉載請注明出處:基於機器學習角度談談CRF。