【關鍵詞提取】第五篇:候選詞生成(下)


原文地址:http://www.cnblogs.com/lessmore/category/1009890.html 轉載請保留本行,歡迎交流。

目錄:

  1. 第一篇:綜述
  2. 第二篇:數據集、實現代碼介紹
  3. 第三篇:特征設計
  4. 第四篇:候選詞生成(上)
  5. 第五篇:候選詞生成(下)
  6. 第六篇:性能比較

大多數候選詞生成方法都是使用啟發式規則從文本中直接生成候選詞,注意到關鍵詞內部不會包含其他關鍵詞,從另一個角度來看候選詞生成,無非是對文本中每個單詞進行標注IOB格式的標簽。其中I表示單詞位於詞組內部(Inside),O表示單詞位於詞組外部(Outside),B表示單詞位於詞組開始(Beginning)。例如若標注結果是“Natural/B language/I process/I is/O interesting/O”,我們就可以知道“Natural language process”是關鍵詞。這樣我們就把關鍵詞生成轉化成標注問題。計算語言學中最常見的標注模型有隱式馬爾可夫模型和條件隨機場]。本文中使用的是線性鏈條件隨機場,條件隨機場可以利用上下文信息進行標注,效果較好。

CRF標注方法提取候選詞如同通常的機器學習模型,需要定義特征,訓練模型學習參數,最后在測試數據上標注評估結果。值得一提的是,我們將CRF標注的結果視作候選詞而不直接當作關鍵詞,因此這里不評估准確率、召回率等指標。CRF模型中使用的特征只包括詞性標注,TF*IDF,首次出現位置這三維特征,每個特征的介紹可以參見第三篇。

使用CRF標注方法相對於第四篇的名詞短語提取方法的優勢是顯而易見的,可以提取各種類型的關鍵詞,也可以處理不同領域的文本,可以自適應處理不同關鍵詞數目的情形。同樣CRF標注方法也有通常機器學習模型的問題,如何調整參數達到更好的結果,如何避免欠擬合過擬合。CRF標注方法使得候選詞生成階段變得更復雜。

這里需要說明的是,為什么不直接將CRF標注的結果視作關鍵詞,而要增加候選詞分類這個步驟呢?事實上,難以做出一個完美的解釋,而這恰恰是我實現系統的創新之處,只能說這樣的性能更好。可以參考的經驗是,在CRF標注中使用更多的特征,例如外部訓練的詞向量這些沒有令標注結果的性能更好,這是CRF模型本身參數較多的特點導致的。因此我們放松CRF標注的要求,只希望給出更高的召回率,再增加一個候選詞分類來達到更好的結果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM