命名實體識別(NER)綜述


簡介

命名實體識別(Named Entity Recognition, NER)旨在從文本中抽取出命名實體,比如人名、地名、機構名等。它是一個非常重要的基礎性任務,可以有效幫助后續的文本語義理解。

NER任務一般有兩種類型:flat NER和nested NER。前者就是普通的NER,每個token只對應一個label;后者是比較復雜的NER,每個的token對應若干個label。除非特殊聲明,一般提到的NER默認為flat NER。

本文將介紹如下幾個具有影響力的NER相關工作:

模型 年份 備注
BiLSTM-CRF 2015 基礎、經典模型
Lattice LSTM 2018 詞+字經典模型
SoftLexicon 2020 提出一種融入詞信息的方法,可以用在不同模型上
FLAT 2020
BERT-MRC 2020
A Rigourous Study on NER 2020 通過控制變量法來探討NER的關鍵因素
Lex-BERT 2021 更加優雅的

單純使用預訓練微調來完成NER的方法本文不作介紹。

BiLSTM-CRF[1], 2015

BiLSTM-CRF模型是非常經典的NER模型,有三點優勢:

  • 憑借雙向LSTM可以高效地利用過去和未來的輸入特征;
  • 憑借CRF層可以利用句子級的標簽信息;
  • 和之前的工作相比,模型具有魯棒性,對詞嵌入的依賴更弱;

BiLSTM-CRF的模型結構非常簡單,如下圖所示:

憑借當前的深度學習框架,只需要幾行代碼即可實現該模型。以下是關於BiLSTM-CRF的一些實戰經驗(大部分來自論文):

  • 模型性能和隱藏單元大小無關;
  • 模型在10個epoch內就可以收斂;
  • 單獨使用CRF非常依賴於人工特征,相比之下BiLSTM和BiLSTM-CRF對此影響較小,具有一定的魯棒性;
  • 一般情況,基於字的NER比基於詞的NER效果好
  • 使用BiLSTM-CRF可以在輸入多拼接些詞嵌入,比如BERT等預訓練模型得到的詞嵌入,或者word2vec、glove等傳統方法的詞嵌入;

Lattice LSTM[2], 2018

基於詞的NER存在分詞錯誤傳播,因此往往采用更細粒度的基於字的NER方法,雖然該過程會丟失詞信息,但是成績更好(事實上F1一般都可以達到90+)。盡管如此,還是有很多工作嘗試融入詞信息,LatticeLSTM就是這類思路的一個代表模型,它把詞的嵌入特征也輸入到了模型中,模型結構如下:

Lattice LSTM利用額外的LSTM單元來提取詞級的特征,於是對於存在多種實體組合可能的句子,每個字符位置處的LSTM會接受多個輸入,如下圖所示,“橋”所對應LSTM單元會接受額外兩個輸入。

Lattice LSTM的結果有了2到3個百分點的提升,但是缺點也非常明顯,由於句子中詞的組合形式千變萬化(正如它的名字“柵格”一樣),這就使得模型非常復雜,訓練困難。

FLAT[3], 2020

FLAT參考Transformer-XL利用相對位置編碼來把詞的信息融入到Transformer中去。

SoftLexicon[4], 2020

SoftLexicon把BMES四個特征和字嵌入拼接,這種方式看起來很好,但是在總結詞集合各個詞嵌入時直接均化詞嵌入感覺還是會丟失語義信息。僅根據論文,SoftLexicon的成績是比FLAT更好的,而且計算要更加簡單。

BERT-MRC, 2020

BERT-MRC把NER當成閱讀理解任務,這樣實現了一個模型搞定兩種NER任務(flat ner和nested ner),並且BERT-MRC具有一定的零樣本學習能力。

A rigourous study on NER[5], 2020

regular NER一般會有如下三個問題:

  1. strong name regularity: 同一實體類的名字規律性太強。比如姓名一般由姓和名組成,地名一般帶有街、路;
  2. high mention coverage: 由於訓練集和測試集來自於同一個語料,所以測試集中的實體很大部分都已經在訓練集中見過了;
  3. sufficient context diversity: 由於訓練語料足夠多,以至於能夠對實體上下文進行充分的學習;

所以在這些數據集上模型很容易達到SOTA,但是open NER和regular NER是有差距(discrepancy)的,如下圖所示。

本文將通過randomization test實驗來解釋regular NER和open NER之間差異,然后總結一些結論來更有效更高效地構建NER模型。

  1. name permuation(NP):將相同的name替換成相同的n-gram字符串;
  2. mention permutation(MP):將每個mention都替換成獨一無二的n-gram字符串;
  3. context reduction(CR):降低訓練集中context的多樣性,保留所有entity mention;
  4. mention reduction(MR):保留context的多樣性,減少entity mention;

略過繁瑣的實驗細節,直接來看實驗結論:

1. Decent name regularity is vital to the generalization over unseen entity mentions

實驗結果表明,如果實體在訓練集中出現過,那么name regularity的缺失對性能不會有很大的影響;但是對於一些訓練集沒有見過的實體,缺失name regularity會對結果造成較大的影響。這一結論表明,如果我們降低了訓練集和測試集之間的實體重合率,那么實體的名字最好要有規律,對於一些比較隨意的、不形成規律的實體,比如歌名、電影名,NER的結果會下滑。

這也能解釋為什么ABSA任務中的target抽取結果會比較差。

2. High mention coverage weakens the model ability to capture informative context knowledge

實驗結果表明,測試集中的實體如果大量出現在訓練集中,那么這樣只會導致模型過擬合。

3. Sufficient context diversity may not require enormous training data to capture

從零開始適當增加語料可以同時讓模型學習到name regularity和context diversity,但是二者是分開的。文中指出3000條語料差不多就可以讓模型學到充足的context pattern,再增加語料就沒有必要了,此時可以考慮使用一些詞典來替換語料中的實體詞,從而達到繼續學習name regularity的目的。

From the above experiments, it seems that once it reaches a certain amount, the instances in training data are enough to capture sufficient context patterns. And increasing training instances can mainly provide more name regularity knowledge rather than more context diversity.


  1. Bidirectional LSTM-CRF Models for Sequence Tagging. Zhiheng Huang. 2015 ↩︎

  2. Chinese NER using lattice LSTM. Zhang Yue, Jie Yang. 2018 ↩︎

  3. FLAT: Chinese NER Using Flat-Lattice Transformer. Xiaonan Li, Hang Yan, Xipeng Qiu, Xuanjing Huang. ACL 2020 ↩︎

  4. Simplify the Usage of Lexicon in Chinese NER. Ruotian Ma, Minlong Peng, Qi Zhang, Zhongyu Wei, Xuanjing Huang. ACL 2020 ↩︎

  5. A Rigourous Study on Named Entity Recognition: Can Fine-tuning Pretrained Model Lead to the Promised Land?. Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun. EMNLP 2020 ↩︎


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM