摘要:本文是對ACL2021 NER 模塊化交互網絡用於命名實體識別這一論文工作進行初步解讀。
本文分享自華為雲社區《ACL2021 NER | 模塊化交互網絡用於命名實體識別》,作者: JuTzungKuei 。
論文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.
鏈接:https://aclanthology.org/2021.acl-long.17.pdf
代碼:無
0、摘要
- 現有NER模型缺點
- 基於序列標注的NER模型:長實體識別不佳,只關注詞級信息
- 基於分段的NER模型:處理分段,而非單個詞,不能捕獲分段中的詞級依賴關系
- 邊界檢測和類型預測可以相互配合,兩個子任務可共享信息,相互加強
- 提出模塊化交互網絡模型MIN(Modularized Interaction Network)
- 同時利用段級信息和詞級依賴關系
- 結合一種交互機制,支持邊界檢測和類型預測之間的信息共享
- 三份基准數據集上達到SOTA
1、介紹
- NER:查找和分類命名實體,person (PER), location
(LOC) or organization (ORG),下游任務:關系抽取、實體鏈接、問題生成、共引解析 - 兩類方法
- 序列標注 sequence labeling:可捕獲詞級依賴關系
- 分段 segment(a span of words):可處理長實體
- NER:檢測實體邊界和命名實體的類型,
- 分成兩個子任務:邊界檢測、類型預測
- 兩個任務之間是相關的,可以共享信息
- 舉栗:xx來自紐約大學
- 如果知道大學是實體邊界,更可能會預測類型是ORG
- 如果知道實體有個ORG類型,更可能會預測到“大學”邊界
- 上述兩個常用方法沒有在子任務之間共享信息
- 序列標注:只把邊界和類型當做標簽
- 分段:先檢測片段,再划分類型
- 本文提出MIN模型:NER模塊、邊界模塊、類型模塊、交互機制
- 指針網絡作為邊界模塊的解碼器,捕捉每個詞的段級信息
- 段級信息和詞級信息結合輸入到序列標注模型
- 將NER划分成兩個任務:邊界檢測、類型預測,並使用不同的編碼器
- 提出一個相互加強的交互機制,所有信息融合到NER模塊
- 三個模塊共享單詞表示,采用多任務訓練
- 主要貢獻:
- 新模型:MIN,同時利用段級信息和詞級依賴
- 邊界檢測和類型預測分成兩個子任務,結合交互機制,使兩個子任務信息共享
- 三份基准數據集達到SOTA
2、方法
- NER模塊:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition
- 詞表示:word(BERT) + char(BiLSTM)
- BiLSTM編碼:雙向LSTM,交互機制代替直接級聯,門控函數動態控制
最終NER輸出:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy表示邊界模塊輸出,H^{Type}HType表示類型模塊輸出,H^{Seg}HSeg表示分段信息
- CRF解碼:轉移概率 + 發射概率
- 邊界模塊:雙向LSTM編碼H^{Bdy}HBdy,單向LSTM解碼
- 解碼:
s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj=hj−1Bdy+hjBdy+hj+1Bdy
d_j=LSTM(s_j, d_{j-1})dj=LSTM(sj,dj−1) - Biaffine Attention機制:
- 類型模塊:BiLSTM + CRF
- 交互機制:
- self attention 得到標簽增強的邊界H^{B-E}HB−E,類型H^{T-E}HT−E
- Biaffine Attention 計算得分 \alpha^{B-E}αB−E
- 交互后的邊界:r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E=∑j=1nαi,jB−EhjT−E
- 更新后的邊界:\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy=[hiB−E,riB−E]
- 更新后的類型:\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType=[hiT−E,riT−E]
- 聯合訓練:多任務
- 每個任務的損失函數
- 最終損失函數:\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy
3、結果
- Baseline (sequence labeling-based)
- CNN-BiLSTM-CRF
- RNN-BiLSTM-CRF
- ELMo-BiLSTM-CRF
- Flair (char-BiLSTM-CRF)
- BERT-BiLSTM-CRF
- HCRA (CNN-BiLSTM-CRF)
- Baseline (segment-based)
- BiLSTM-Pointer
- HSCRF
- MRC+BERT
- Biaffine+BERT
號外號外:想了解更多的AI技術干貨,歡迎上華為雲的AI專區,目前有AI編程Python等六大實戰營供大家免費學習。