跟我讀論文丨ACL2021 NER 模塊化交互網絡用於命名實體識別

本文轉載自查看原文 2021-08-13 10:28 211 華為雲新鮮技術分享/ 機器學習/ ACL2021 NER/ 實體識別/ 自然語言處理/ 模塊化交互網絡

摘要：本文是對ACL2021 NER 模塊化交互網絡用於命名實體識別這一論文工作進行初步解讀。

本文分享自華為雲社區《ACL2021 NER | 模塊化交互網絡用於命名實體識別》，作者： JuTzungKuei 。

論文： Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

鏈接：https://aclanthology.org/2021.acl-long.17.pdf

代碼：無

0、摘要

現有NER模型缺點

基於序列標注的NER模型：長實體識別不佳，只關注詞級信息
基於分段的NER模型：處理分段，而非單個詞，不能捕獲分段中的詞級依賴關系

邊界檢測和類型預測可以相互配合，兩個子任務可共享信息，相互加強
提出模塊化交互網絡模型MIN（Modularized Interaction Network）

同時利用段級信息和詞級依賴關系
結合一種交互機制，支持邊界檢測和類型預測之間的信息共享

三份基准數據集上達到SOTA

1、介紹

NER：查找和分類命名實體，person (PER), location
(LOC) or organization (ORG)，下游任務：關系抽取、實體鏈接、問題生成、共引解析
兩類方法

序列標注 sequence labeling：可捕獲詞級依賴關系
分段 segment（a span of words）：可處理長實體

NER：檢測實體邊界和命名實體的類型，

分成兩個子任務：邊界檢測、類型預測
兩個任務之間是相關的，可以共享信息

舉栗：xx來自紐約大學

如果知道大學是實體邊界，更可能會預測類型是ORG
如果知道實體有個ORG類型，更可能會預測到“大學”邊界

上述兩個常用方法沒有在子任務之間共享信息

序列標注：只把邊界和類型當做標簽
分段：先檢測片段，再划分類型

本文提出MIN模型：NER模塊、邊界模塊、類型模塊、交互機制

指針網絡作為邊界模塊的解碼器，捕捉每個詞的段級信息
段級信息和詞級信息結合輸入到序列標注模型
將NER划分成兩個任務：邊界檢測、類型預測，並使用不同的編碼器
提出一個相互加強的交互機制，所有信息融合到NER模塊
三個模塊共享單詞表示，采用多任務訓練

主要貢獻：

新模型：MIN，同時利用段級信息和詞級依賴
邊界檢測和類型預測分成兩個子任務，結合交互機制，使兩個子任務信息共享
三份基准數據集達到SOTA

2、方法

NER模塊：RNN-BiLSTM-CRF，引用Neural architectures for named entity recognition

詞表示：word（BERT） + char（BiLSTM）
BiLSTM編碼：雙向LSTM，交互機制代替直接級聯，門控函數動態控制

最終NER輸出：H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy表示邊界模塊輸出，H^{Type}HType表示類型模塊輸出，H^{Seg}HSeg表示分段信息

CRF解碼：轉移概率 + 發射概率

邊界模塊：雙向LSTM編碼H^{Bdy}HBdy，單向LSTM解碼

解碼：
s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj=hj−1Bdy+hjBdy+hj+1Bdy
d_j=LSTM(s_j, d_{j-1})dj=LSTM(sj,dj−1)
Biaffine Attention機制：

類型模塊：BiLSTM + CRF
交互機制：

self attention 得到標簽增強的邊界H^{B-E}HB−E，類型H^{T-E}HT−E
Biaffine Attention 計算得分 \alpha^{B-E}αB−E
交互后的邊界：r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E=∑j=1nαi,jB−EhjT−E
更新后的邊界：\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy=[hiB−E,riB−E]
更新后的類型：\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType=[hiT−E,riT−E]

聯合訓練：多任務

每個任務的損失函數

最終損失函數：\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy

3、結果

Baseline (sequence labeling-based)

CNN-BiLSTM-CRF
RNN-BiLSTM-CRF
ELMo-BiLSTM-CRF
Flair (char-BiLSTM-CRF)
BERT-BiLSTM-CRF
HCRA (CNN-BiLSTM-CRF)

Baseline (segment-based)

BiLSTM-Pointer
HSCRF
MRC+BERT
Biaffine+BERT

號外號外：想了解更多的AI技術干貨，歡迎上華為雲的AI專區，目前有AI編程Python等六大實戰營供大家免費學習。

點擊關注，第一時間了解華為雲新鮮技術~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文解讀：ACL2021 NER | 基於模板的BART命名實體識別命名實體識別(NER) 2. 知識圖譜-命名實體識別（NER）詳解 NER命名實體識別，實體級level的評估，精確率、召回率和F1值『深度應用』NLP命名實體識別(NER)開源實戰教程基於BERT的中文命名實體識別任務(BERT-BiLSTM-CRF-NER) 拋棄模板，一種Prompt Learning用於命名實體識別任務的新范式用CRF做命名實體識別(一) 8.HanLP實現--命名實體識別命名實體識別 BiLSTM——CRF