1. 前言

在NLP中有幾個經典的序列標注問題，詞性標注（POS），chunking和命名實體識別（NER）。序列標注器的輸出可用於另外的應用程序。例如，可以利用在用戶搜索查詢上訓練的命名實體識別器來識別關鍵詞，從而觸發某些產品廣告。另一個例子是搜索引擎可以使用這種標簽信息來查找相關的網頁。

2. BI-LSTM-CRF原理

在本文中，我們提出了各種基於長短期記憶（LSTM）的序列標注模型。這些模型包括LSTM網絡，雙向LSTM網絡（BI-LSTM），帶條件隨機場的LSTM（LSTM-CRF）和具有CRF的雙向LSTM（BI-LSTM-CRF）。

論文的工作是將BI-LSTM-CRF模型應用於NLP基准序列標注記數據集。實驗表明，由於雙向LSTM組件，BI-LSTM-CRF模型可以有效地使用過去和未來輸入特征。

BI-LSTM-CRF模型可以在POS、chunking、NER數據集達到SOTA的水平。並且，與先前的結果相比，它更具有魯棒性和對word embbding的依賴性較小。

3. BI-LSTM-CRF模型

BI-LSTM-CRF的結構是由word embedding、雙向LSTM層、CRF層構成。

word embedding：使用 unigram，bi-gram，tri-gram的特征，使用了50維的詞向量。
BI-LSTM層，是充分提取詞過去和未來的特征，這種特征能夠提升標簽的准確度。
CRF層是連接LSTM輸出的線性表示，CRF層具有狀態轉移矩陣作為參數。

BI-LSTM-CRF的算法過程：

3.1 Feature Trick

我們可以將拼寫和上下文特征都看作單詞的特征。也就是說，神經網絡的輸入包括單詞，拼寫和上下文特征。論文指出，我們發現加入拼寫能夠加速訓練，並且它們得到非常相似的標注准確性。

如下圖所示：

4. 總結

序列標注是基礎性的NLP研究課題，是許多NLP任務的基礎。比如搜索引擎使用命名實體識別查詢語句中的產品類實體，繼而推薦廣告。經典的序列標注有HMM、MEMMs和CRFs三種，其中CRFs的效果最好，可以解決HMM和MEMMs的標簽偏置（label bias）問題。后來詞向量的研究興起，Collobert（Collobert et al.201）的C&W詞向量也在序列標注一展身手。Collobert 用的是卷積神經網絡+CRF。LSTM在語音識別等領域已經有了成功的應用，引文若干。在之后的實驗中對比了這些模型和自己模型（BI-LSTM-CRF, state of the art）的結果。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ALBERT+BiLSTM+CRF實現序列標注基於 bi-LSTM和CRF的中文命名實體識別 97.5%准確率的深度學習中文分詞（字嵌入+Bi-LSTM+CRF） PyTorch 高級實戰教程：基於 BI-LSTM CRF 實現命名實體識別和中文分詞 PyTorch 高級實戰教程：基於 BI-LSTM CRF 實現命名實體識別和中文分詞 DL4NLP —— 序列標注：BiLSTM-CRF模型做基於字的中文命名實體識別序列標注 Pytorch中RNN和LSTM的簡單應用 CAD中怎么添加引線標注？CAD引線標注應用技巧標注-CRF條件隨機場理論的介紹