摘要:本文是對ACL2021 NER BERT化隱馬爾可夫模型用於多源弱監督命名實體識別這一論文工作進行初步解讀。
本文分享自華為雲社區《ACL2021 NER | BERT化隱馬爾可夫模型用於多源弱監督命名實體識別》,作者: JuTzungKuei 。
論文:Li Yinghao, Shetty Pranav, Liu Lucas, Zhang Chao, Song Le. BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition[A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 6178–6190.
鏈接:https://aclanthology.org/2021.acl-long.482.pdf
代碼:https://github.com/Yinghao-Li/CHMM-ALT
0、摘要
- 研究內容:使用多個弱監督數據的噪音標簽學習NER
- 噪音數據:不全、不准、矛盾
- 提出一個條件隱馬爾可夫模型(CHMM:conditional hidden Markov model)
- 利用BERT的上下文表示能力,增強了經典的HMM模型
- 從BERT嵌入中學習詞的轉移和發射概率,推斷潛在的真標簽
- 用交替訓練方法(CHMM-ALT)進一步完善CHMM
- 用CHMM推導出的標簽對BERT-NER模型進行微調
- BERT-NER的輸出作為額外的弱源來訓練CHMM
- 四份數據集上達到SOTA
1、介紹
- NER是許多下游信息抽取任務的基礎任務:事件抽取、關系抽取、問答
- 有監督、需要大量標注數據
- 許多領域有知識源:知識庫、領域詞典、標注規則
- 可以用來匹配語料庫,從多角度,快速生成大規模的噪聲訓練數據
- 遠程監督NER:只使用知識庫作為弱監督,未使用多源標注的互補信息
- 現有利用HMM方法,有局限性:one-hot詞向量 或 不建模
- 貢獻:
- CHMM:聚合多源弱標簽
- 交替訓練方法CHMM-ALT:輪流訓練CHMM和BERT-NER,利用彼此的輸出進行多回路,以優化多源弱監督NER性能
- 四份基准數據集獲得SOTA
2、方法
- CHMM-ALT 訓練兩個模型:多源標簽聚合器CHMM和BERT-NER 模型,輪流作為彼此的輸出
- 階段I:CHMM根據K個源x_{1:K}^{(1:T)}x1:K(1:T),生成一個去噪標簽y^{*(1:T)}y∗(1:T),微調BERT-NER模型輸出\widetilde{y}^{(1:T)}y(1:T),作為額外的標注源,添加到原始弱標簽集合x_{1:K+1}^{(1:T)} = \{x_{1:K}^{(1:T)} , \widetilde{y}^{(1:T)}\}x1:K+1(1:T)={x1:K(1:T),y(1:T)}
- 階段II:CHMM和BERT-NER在幾輪循環中互相改進,每輪循環,先訓練CHMM,后微調BERT-NER,更新前者的輸入
- CHMM 提高Precision,BERT-NER提高Recall
- 隱馬爾可夫模型
- 不細解
3、結果
號外號外:想了解更多的AI技術干貨,歡迎上華為雲的AI專區,目前有AI編程Python等六大實戰營供大家免費學習。