Joint Extraction of Entities and Relations論文解析


1. 前言

實體和關系的聯合抽取問題作為信息抽取的關鍵任務,其實現方法可以簡單分為兩類:

  • 一類是串聯抽取方法。傳統的串聯抽取就是首先進行實體抽取,然后進行關系識別。這種分開的方法比較容易實現,而且各個模塊靈活度比較高。但是這種方法中,實體識別的結果會影響到關系識別的結果,所以容易產生誤差累積。
  • 另一類是聯合抽取方法:使用一個模型同時實現實體抽取和關系抽取,能更好的整合實體及其關系之間的信息。但現有的聯合抽取方法也存在諸多問題,比如:大部分的聯合抽取模型需要人工參與構建特征。為了減少人工抽取特征工作而提出基於神經網絡的end-to-end模型,因在模型實現過程中分開抽取實體及其關系而導致信息冗余等問題。

本文解析的論文《Joint Extraction of Entities and Relations
Based on a Novel Tagging Scheme》
中提出了一個新的模型框架來解決此類問題,並在公開數據集 NYT 上取得了很好的效果。

2. 算法模型

這篇論文提出將一種新的標注方法來解決聯合抽取任務,將聯合抽取問題轉化為標注問題,這樣就可以避免復雜的特征工程。由於LSTM在end-to-end的命名實體識別模型當中有比較好的表現,而且LSTM本身能夠學習長期依賴關系,有利於解決序列建模任務。所以本文基於新的標注方法,研究了基於LSTM的end-to-end模型來解決聯合抽取實體和關系的任務。除此之外還在解碼的過程中增加了偏置損失函數,增強了相關實體之間的聯系,讓模型更加適合特殊標簽。

2.1 標注方法

image

上圖所示,模型的輸入一句非結構化的文本,輸出為一個預定關系類型的三元組。
為了實現該任務,作者首先提出了一種新的標注模式,將信息抽取任務轉化為序列標注任務。

image

如上圖所示,這種標注模式將文本中的詞分為兩類,

  • 第一類代表與抽取結果無關的詞,用標簽“O”來表示;
  • 第二類代表與抽取結果相關的詞,這一類詞的標簽由三部分組成:當前詞在entity中的位置-關系類型-entity在關系中的角色。
    • 作者使用“BIES”(Begin,Inside,End,Single)標注,來表示當前詞在 entity中的位置。
    • 關系類型則是從預先設定的關系類型集中獲得的。
    • entity在關系中的角色信息,用“1”,“2”來表示。其中“1”表示,當前詞屬於三元組(Entity1,RelationType,Entity2)的 Entity1,同理“2”表示當前詞屬於Entity2。

最后根據標注結果將同種關系類型的兩個相鄰順序實體組合為一個三元組。例如:通過標注標簽可知,“United”與“States”組合形成了實體“United States”,實體“United States”與實體“Trump”組合成了三元組 {United States, Country-President, Trump}。如果一個句子中包含兩個或者更多相同關系類型的三元組,我們基於最近原則將兩個實體組合為三元組。本篇論文只考慮一個實體只屬於一個三元組的情況。

2.2 End-to-End模型

當輸入為文本語句的時候,為了自動實現對文本詞序列的標注工作,作者提出了一個端到端的模型來實現了該工作。模型結構如下圖

image

  1. 詞嵌入層將每個詞的 one-hot 表示向量轉化為低維稠密的詞嵌入向量(維度為 300);
  2. Bi-LSTM 編碼層(層數為 300)用於獲得詞的編碼信息;
  3. LSTM 解碼層(層數為 600)用於產生標簽序列。其中加入偏移損失來增強實體標簽的關聯性。

3. 實驗結果及分析

本實驗采用NYT數據,實驗的訓練集采用遠程監督方法標注,而測試集為人工標注。訓練數據包括353000個三元組,而測試數據包括3880個三元組,關系集的大小為24。本實驗采用精確度、召回率和F1值進行評估。該算法與傳統方法的不同之處在於,抽取三元組時不需要知道實體的類型信息,所以在評估過程中不需要考慮實體類型。當三元組的關系類型、以及對應的兩個頭部偏移實體都正確時,這個三元組被認為是正確的。實驗結果如下:

image

前三行是串聯抽取的結果,中間4-6行是聯合抽取的結果,最后三行是基於基於本文所提出的新的標注方法的end-to-end模型實現的聯合抽取的實驗結果。可以發現聯合抽取的方法優於串聯抽取的方法,而end-to-end的聯合抽取方法又優於聯合抽取方法。而三種end-to-end模型中,編碼過程都采用雙向LSTM,而解碼過程則分別用CRF、LSTM以及LSTM+Bias,可以發現LSTM的解碼方式優於CRF,出現這一結果的原因是CRF 旨在最大化整個標簽序列的聯合概率,LSTM 能夠學習序列元素之間的長距離依賴關系,由於關聯標簽之間可能彼此具有較長距離,所以基於 LSTM 的解碼方式比 CRF 稍好。而增加了偏置權重以增強特殊標簽的作用,並削弱無效標簽的影響的LSTM+Bias解碼方法可以獲得比常見端對端模型更好地效果。

4. 總結

這篇論文提出一個新的標注方法,並且研究了利用end-to-end模型來聯合抽取實體和關系,實驗結果證明該方法非常有效。但是面對重疊關系,依舊存在缺陷。后續將研究在輸出層用多分類代替softmax函數來解決重疊關系的問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM