1. 前言
在NLP中有幾個經典的序列標注問題,詞性標注(POS),chunking和命名實體識別(NER)。序列標注器的輸出可用於另外的應用程序。例如,可以利用在用戶搜索查詢上訓練的命名實體識別器來識別關鍵詞,從而觸發某些產品廣告。另一個例子是搜索引擎可以使用這種標簽信息來查找相關的網頁。
2. BI-LSTM-CRF原理
在本文中,我們提出了各種基於長短期記憶(LSTM)的序列標注模型。這些模型包括LSTM網絡,雙向LSTM網絡(BI-LSTM),帶條件隨機場的LSTM(LSTM-CRF)和具有CRF的雙向LSTM(BI-LSTM-CRF)。
論文的工作是將BI-LSTM-CRF模型應用於NLP基准序列標注記數據集。實驗表明,由於雙向LSTM組件,BI-LSTM-CRF模型可以有效地使用過去和未來輸入特征。
BI-LSTM-CRF模型可以在POS、chunking、NER數據集達到SOTA的水平。並且,與先前的結果相比,它更具有魯棒性和對word embbding的依賴性較小。
3. BI-LSTM-CRF模型
BI-LSTM-CRF的結構是由word embedding、雙向LSTM層、CRF層構成。
- word embedding:使用 unigram,bi-gram,tri-gram的特征,使用了50維的詞向量。
- BI-LSTM層,是充分提取詞過去和未來的特征,這種特征能夠提升標簽的准確度。
- CRF層是連接LSTM輸出的線性表示,CRF層具有狀態轉移矩陣作為參數。
BI-LSTM-CRF的算法過程:
3.1 Feature Trick
我們可以將拼寫和上下文特征都看作單詞的特征。也就是說,神經網絡的輸入包括單詞,拼寫和上下文特征。論文指出,我們發現加入拼寫能夠加速訓練,並且它們得到非常相似的標注准確性。
如下圖所示:
4. 總結
序列標注是基礎性的NLP研究課題,是許多NLP任務的基礎。比如搜索引擎使用命名實體識別查詢語句中的產品類實體,繼而推薦廣告。經典的序列標注有HMM、MEMMs和CRFs三種,其中CRFs的效果最好,可以解決HMM和MEMMs的標簽偏置(label bias)問題。后來詞向量的研究興起,Collobert(Collobert et al.201) 的C&W詞向量也在序列標注一展身手。Collobert 用的是卷積神經網絡+CRF。LSTM在語音識別等領域已經有了成功的應用,引文若干。在之后的實驗中對比了這些模型和自己模型(BI-LSTM-CRF, state of the art)的結果。