命名體識別綜述筆記


 

論文地址:A Survey on Deep Learning for Named Entity Recognition

背景

什么是命名體識別

命名體識別(Named Entity Recognition, NER)是可以將一個單詞或者短語可以清楚地從與它具有相似屬性的項目中識別出來。例如一般領域中的識別人名、地名和組織名稱,和醫學領域的毒、疾病等。

NER有粗粒度NER和細粒度NER:

  • 粗粒度NER:關注一個粗糙類型的小集合,每個命名體只有一個類型。

  • 細粒度NER:關注一個更大的實體類型集合,並且一個命名體可能有多個細粒度類型

NER資源:Datasets和Tools

Dataset
Corpus Year Text Source Tags
MUC-6 1995 Wall Street Journal 7
MUC-6 Plus 1995 Additional news to MUC-6 7
MUC-7 1997 New York Times news 7
CoNLL03 2003 Reuters news 4
ACE 2000 - 2008 Transcripts, news 7
OntoNotes 2007 - 2012 Magazine, news, web, etc. 18
W-NUT 2015 - 2018 User-generated text 6/10
BBN 2005 Wall Street Journal 64
WikiGold 2009 Wikipedia 4
WiNER 2012 Wikipedia 4
WikiFiger 2012 Wikipedia 112
HYENA 2012 Wikipedia 505
URL 2014 News 3
Gillick 2016 Magazine, news, web, etc. 89
FG-NER 2018 Various 200
NNE 2019 Newswire 114
GENIA 2004 Biology and clinical text 36
GENETAG 2005 MEDLINE 2
FSU-PRGE 2010 PubMed and MEDLINE 5
NCBI-Disease 2014 PubMed 1
BC5CDR 2015 PubMed 3
DFKI 2018 Business news and social media 7
Tools

NER System:

NER評估指標

精確匹配評估

NER可以分成兩種子任務:邊界檢測(識別短語的邊界)和類型識別。而精確匹配評估是當且僅當NER System正確識別邊界和類型。

通常進行精確匹配評估的指標有精確度(Precision)、召回率(Recall)和F-score,而他們則需要以下信息進行計算得出:

  • 假陽性(False Positive, FP):被NER System識別出的實體但是在ground truth中不存在

  • 假陰性(False Negative, FN):沒有被NER System識別出來的實體但是在ground truth中存在

  • 真陽性(True Positive, TP):被NER System識別出來且在ground truth存在

精度(Precision)指的是NER System結果識別正確的百分比,召回率(Recall)指的是所有實體中被成功識別的百分比:

 

F-score是Precision和Recall的調和平均數:

 

寬松匹配評估

在MUC-6中定義了寬松匹配評估:即當一個實體被正確分類且它的預測邊界與ground truth中有重合就算識別成功

NER的傳統方法

  • 基於規則的方法:其依賴於手工設計識別規則,主要基於特定領域的名詞詞典和語法-詞匯模式來設計。

  • 無監督學習的方法:聚類是典型的無監督學習方法,基於聚類的NER System根據上下文相似性從聚類組中提取命名體。其關鍵思想是在大型數據庫中的詞匯資源、詞匯模型和統計數據被計算后可以用來推斷命名體的mentions

  • 基於特征的監督學習方法:監督學習的分類任務和序列標注任務都可以應用到NER中,對於給定標注數據,機器學習學習一個模型后對未見過的數據中識別相似的模式,特征工程對於有監督NER System同樣至關重要。常用的機器學習算法有:隱馬爾可夫模型(Hidden Markov Models, HMM),決策樹(Decision Trees),最大熵模型(Maximum Entropy Models),支持向量機(Surpport Vector Machine, SVM),條件隨機場(Conditional Random Fields, CRF)

NER與深度學習

論文中作者總結了三個使用深度學習的理由:

  1. 非線性模型讓模型可以從數據中學習更復雜的特征

  2. 深度學習可以節約大量設計特征的精力

  3. 深度學習可以通過梯度下降進行端到端的范式訓練,這使得設計復雜的NER System成為可能

以往的DL-based NER System分類為字符及編碼器(character-level encoder),詞級編碼器(word-level encoder)和標簽解碼器(tag decoder)。但是作者認為在典型的word-level的信息在作為原始特征輸入時和為標簽解碼器捕獲上下文依賴時使用了兩次,因此這樣分類並不准確。所以在論文中作者使用了一種新的DL-based NER Model分類方法:

  1. 分布式表示輸入(Distributed Representations for Input):將word-level、character-level及其它附加特征作為輸入

  2. 上下文編碼器(Context Encoder):利用CNN、RNN或其它網絡模型去捕獲上下文依賴

  3. 標簽解碼器(Tag Decoder):利用CRF,Softmax等給出預測結果

這三個分類就是DL-based NER Model三個步驟,由1將特征輸入給2,2進行處理后送給3,3通過2送來的數據給出預測結果。

分布式表示輸入(Distributed Representations for Input)

在分布式表示中並沒有使用one-hot向量,而是使用的低維稠密向量。

詞級表示(Word-level Representation)

 

通常通過無監督算法(例如continuous bag-of-words(CBOW)和continuous skip-gram模型)對大量文本進行預訓練,常用的詞嵌入有Google Word2VecStanford GLoVeFacebook fastTextSENNA

字符級表示(Character-level Representation)

論文中作者提出character-level表示相對於word-level表示有兩大優點:

  1. character-level對於利用sub-word-level信息(例如前綴和后綴)非常有用

  2. character-level能夠很自然地處理out-of-vocabulary(OOV)

提取character-level最常用的兩種結構是CNN-based模型和RNN-based模型,在RNN-based模型中兩個最常用的是Long Short-Term Memory(LSTM)和Gated Recurrent Unit(GRU)。

混合表示(Hybrid Representation)

混合表示通常會輸入一些額外信息來幫助NER系統提高性能,但是這些額外信息帶來的提高是以系統的通用性為代價的。而預訓練語言模型通常需要大規模的語料庫來幫助訓練並且包含一些輔助嵌入,其中近期最著名的混合表示DL模型是BERT。

上下文編碼結構(Context Encoder Architectures)

這部分介紹了幾種常用的上下文編碼結構模型:卷積神經網絡(convolutional neural networks, CNNs)、循環神經網絡(recurrent neural networks, RNNs)、遞歸神經網絡(recursive neural networks, RNNs)和deep tansformer

卷積神經網絡

Collobert et al.提出了一種基於句子的網絡模型,其先將句子中的每個單詞嵌入一個n維向量,然后卷積層對單詞產生局部特征,將局部特征向量組合起來構成全局特征向量,之后對句子中的位置進行最大池化或者平均池化后送入全連接層,最后將全連接層產生的特征向量送入標簽解碼器,其具體結構如圖所示。

Zhou et al.發現在使用RNN的時候,后面的單詞要比前面的單詞對句子的影響更大,但是重要的單詞可能出現在句子中的任何地方,因此他們提出了先用BLSTM提取long-term依賴,然后使用CNN去獲取一個較好的表示。

循環神經網絡

循環神經網絡和它的變體門循環控制單元(gated recurrent unit, GRU)和長短期記憶網絡(long-short term memory, LSTM)在處理序列化數據時效果顯著。尤其是雙向循環神經網絡在特定的時間框架中可以通過前向傳播利用過去的信息和通過反向傳播利用未來的信息,圖中是一個典型的RNNs-based上下文編碼器。

Gregoric et al.將相同的輸入輸入到多個獨立的雙向LSTM單元,並在使用了跨模型的正則化項促進了模型的多樣性。通過將計算分布在多個小的LSTMs上他們發現可以減少總參數量。近來LSTM-based模型被設計用來做嵌套命名體識別(nested named entity recognition)。Katiyar and Cardie修改了標准的LSTM-based序列標注模型去進行嵌套命名體識別。Ju et al.通過動態堆疊flat NER layer直到沒有外部實體可以被提取來識別嵌套實體;每個flat NER layer采用雙向LSTM來捕獲連續上下文信息,該模型將當前flat NER layer中的LSTM層的輸出合並,將它們送給下一個flat NER layer。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM