BI-LSTM-CRF在序列標注中的應用


1. 前言

在NLP中有幾個經典的序列標注問題,詞性標注(POS),chunking和命名實體識別(NER)。序列標注器的輸出可用於另外的應用程序。例如,可以利用在用戶搜索查詢上訓練的命名實體識別器來識別關鍵詞,從而觸發某些產品廣告。另一個例子是搜索引擎可以使用這種標簽信息來查找相關的網頁。

2. BI-LSTM-CRF原理

在本文中,我們提出了各種基於長短期記憶(LSTM)的序列標注模型。這些模型包括LSTM網絡,雙向LSTM網絡(BI-LSTM),帶條件隨機場的LSTM(LSTM-CRF)和具有CRF的雙向LSTM(BI-LSTM-CRF)。

論文的工作是將BI-LSTM-CRF模型應用於NLP基准序列標注記數據集。實驗表明,由於雙向LSTM組件,BI-LSTM-CRF模型可以有效地使用過去和未來輸入特征。

BI-LSTM-CRF模型可以在POS、chunking、NER數據集達到SOTA的水平。並且,與先前的結果相比,它更具有魯棒性和對word embbding的依賴性較小。

3. BI-LSTM-CRF模型

image

BI-LSTM-CRF的結構是由word embedding、雙向LSTM層、CRF層構成。

  1. word embedding:使用 unigram,bi-gram,tri-gram的特征,使用了50維的詞向量。
  2. BI-LSTM層,是充分提取詞過去和未來的特征,這種特征能夠提升標簽的准確度。
  3. CRF層是連接LSTM輸出的線性表示,CRF層具有狀態轉移矩陣作為參數。

BI-LSTM-CRF的算法過程:

image

3.1 Feature Trick

我們可以將拼寫和上下文特征都看作單詞的特征。也就是說,神經網絡的輸入包括單詞,拼寫和上下文特征。論文指出,我們發現加入拼寫能夠加速訓練,並且它們得到非常相似的標注准確性。

如下圖所示:

image

4. 總結

序列標注是基礎性的NLP研究課題,是許多NLP任務的基礎。比如搜索引擎使用命名實體識別查詢語句中的產品類實體,繼而推薦廣告。經典的序列標注有HMM、MEMMs和CRFs三種,其中CRFs的效果最好,可以解決HMM和MEMMs的標簽偏置(label bias)問題。后來詞向量的研究興起,Collobert(Collobert et al.201) 的C&W詞向量也在序列標注一展身手。Collobert 用的是卷積神經網絡+CRF。LSTM在語音識別等領域已經有了成功的應用,引文若干。在之后的實驗中對比了這些模型和自己模型(BI-LSTM-CRF, state of the art)的結果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM