【轉】統計模型之間的比較,HMM,最大熵模型,CRF條件隨機場


HMM模型將標注看作馬爾可夫鏈,一階馬爾可夫鏈式針對相鄰標注的關系進行建模,其中每個標記對應一個概率函數。HMM是一種生成模型,定義了聯 合概率分布 ,其中x和y分別表示觀察序列和相對應的標注序列的隨機變量。為了能夠定義這種聯合概率分布,生成模型需要枚舉出所有可能的觀察序列,這在實際運算過程中很困難因為我們需要將觀察序列的元素看做是彼此孤立的個體即假設每個元素彼此獨立,任何時刻的觀察結果只依賴於該時刻的狀態

HMM模 型的這個假設前提在比較小的數據集上是合適的,但實際上在大量真實語料中觀察序列更多的是以一種多重的交互特征形式表現,觀察元素之間廣泛存在長程相關性。在命名實體識別的任務中,由於實體本身結構所具有的復雜性,利用簡單的特征函數往往無法涵蓋所有的特性,這時HMM的假設前提使得它無法使用復雜特征 (它無法使用多於一個標記的特征。

最大熵模型可以使用任意的復雜相關特征在性能上最大熵分類器超過了Byaes分類器。但是,作為一種分類器模型,這兩種方法有一個共同的缺點每個詞都是單獨進行分類的,標記之間的關系無法得到充分利用,具有馬爾可夫鏈的HMM模型可以建立標記之間的馬爾 可夫關聯性,這是最大熵模型所沒有的。

最大熵模型的優點:首先,最大熵統計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型;其次,最大熵統計模型可以靈活地設置約束條件,通過約束條件的多少可以調節模型對未知數據的適應度和對已知數據的擬合程度;再次,它還能自然地解決了統計模型中參數平滑的問題

最大熵模型的不足:首先,最大熵統計模型中二值化特征只是記錄特征的出現是否,而文本分類需要知道特征的強度,因此,它在分類方法中不是最優的;其次,由於算法收斂的速度較慢,所以導致最大熵統計模型它的計算代價較大,時空開銷大;再次,數據稀疏問題比較嚴重。

最大熵馬爾科夫模型把HMM模型和maximum-entropy模型的優點集合成一個生成模型,這個模型允許狀態轉移概率依賴於序列中彼此之間非獨立的 特征上,從而將上下文信息引入到模型的學習和識別過程中,提高了識別的精確度,召回率也大大的提高,有實驗證明,這個新的模型在序列標注任務上表現的比 HMM和無狀態的最大熵模型要好得多。

CRF模型的特點:首先,CRF在給定了觀察序列的情況下,對整個的序列的聯合概率有一個統一的指 數模型。一個比較吸引人的特性是其 損失函數 的凸面性。其次,條件隨機域模型相比較改進的隱馬爾可夫模型可以更好更多的利用待識別文本中所提供的上下文信息以得更好的實驗結果。條件隨機域在中文組塊 識別方面有效,並避免了嚴格的獨立性假設和數據歸納偏置問題。條件隨機域(CRF)模型應用到了中文名實體識別中,並且根據中文的特點,定義了多種特征模 板。並且有測試結果表明:在采用相同特征集合的條件下,條件隨機域模型較其他概率模型有更好的性能表現。再次,詞性標注主要面臨兼類詞消歧以及未知詞標注 的難題,傳統隱馬爾科夫方法不易融合新特征,而最大熵馬爾科夫模型存在標注偏置等問題。論文引入條件隨機域建立詞性標注模型,易於融合新的特征,並能解決 標注偏置的問題。

   CRFs具有很強的推理能力,並且能夠使用復雜、有重疊性和非獨立的特征進行訓練和推理,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能

夠 獲取的信息非常豐富。同時,CRFs解決了最大熵模型中的“label bias”問題。CRFs與最大熵模型的本質區別是:最大熵模型在每個狀態都有一個概率模型,在每個狀態轉移時都要進行歸一化。如果某個狀態只有一個后續 狀態,那么該狀態到后續狀態的跳轉概率即為1。這樣,不管輸入為任何內容,它都向該后續狀態跳轉。而CRFs是在所有的狀態上建立一個統一的概率模型,這 樣在進行歸一化時,即使某個狀態只有一個后續狀態,它到該后續狀態的跳轉概率也不會為1,從而解決了“labelbias”問題。因此,從理論上 講,CRFs非常適用於中文的詞性標注。

CRF模型的優點:首先,CRF模型由於其自身在結合多種特征方面的優勢和避免了標記偏置問題。其次,CRF的性能更好,CRF對特征的融合能力比較強,對於實例較小的時間類ME來說,CRF的識別效果明顯高於ME的識別結果。

CRF 模型的不足:首先,通過對基於CRF的結合多種特征的方法識別英語命名實體的分析,發現在使用CRF方法的過程中,特征的選擇和優化是影響結果的關鍵因 素,特征選擇問題的好與壞,直接決定了系統性能的高低。其次,訓練模型的時間比ME更長,且獲得的模型很大,在一般的PC機上無法運行。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM