論文閱讀 | ACL2019 Exploring Pre-trained Language Models for Event Extraction and Generation

本文轉載自查看原文 2020-02-17 22:18 1133 論文閱讀

一、摘要

研究目的是解決在事件抽取任務中手動標注訓練數據的費時費力以及訓練數據不足的問題。首先提出了一個事件抽取模型，通過分離有關角色（roles）的論元（arguement）預測來克服角色重疊的問題。此外，針對訓練數據不足的問題，提出了一種通過編輯原型（prototypes）來自動生成標注好的數據，通過對質量進行排序來篩選生成的樣本的方法。

二、背景

角色重疊問題（the roles overlap problem）：一個論元可以在一句話中扮演不同的角色。例如，"The explosion killed the bomber and three shoppers"這句話中，kill是事件attack的觸發詞，而the bomber既是角色attacker，也是角色victim。

此外，針對現在遠程監督的事件抽取存在的問題，將目光轉向預訓練的語言模型，試圖利用它們從大規模語料庫中獲取的知識來做事件生成。

三、抽取模型

研究將事件抽取看作由兩個子任務（觸發詞抽取、論元抽取）組成，並提出了以預訓練語言模型為基礎的事件抽取器（PLMEE）。

1. 觸發詞抽取器

用於預測token是不是事件的觸發詞。將觸發詞抽取看作一個對token的分類任務，其中label是事件類型。只需要在BERT上添加一個多分類器就可以構建觸發詞抽取器。

2. 論元抽取器

用於提取相關的論元及其扮演的角色。為了克服大部分論元都是長短語以及角色重疊這兩個問題，在BERT上添加了多組二分類器，每組分類器為一類角色服務，確定所有屬於它的論元的范圍（短語開始到結束）。

3. 論元范圍的判定

PLMEE中，一個token t被認定為角色r的論元的開頭的概率是：

被認定為結尾的概率是：

其中下標s代表開頭，e代表結尾。W_s^r是二分類器探測角色為r的論元開始的權重，同理W_e^r是二分類器探測角色為r的論元結束的權重。B是BERT embedding。

對於每個角色r，根據上述概率，可以得到兩個0-1數列B_s^r和B_e^r，代表句子中的token是否是角色為r的論元的開始或結束。最后通過一個有限狀態機來判定論元范圍。

四、訓練數據生成

除了PLMEE之外，還提出了一個基於預訓練語言模型的事件生成方法。通過編輯原型，該方法可以生成數量可控的標記樣本作為額外的訓練語料庫。這個方法分為三步：預處理、事件生成和評分。

Adjunct token：除了觸發詞和論元之外的token，不僅包括單詞和數字，還包括標點符號。例如句子"President Bush is going to be meeting with several Arab leaders"中，is和going就是adjunct token。