一、摘要
研究目的是解決在事件抽取任務中手動標注訓練數據的費時費力以及訓練數據不足的問題。首先提出了一個事件抽取模型,通過分離有關角色(roles)的論元(arguement)預測來克服角色重疊的問題。此外,針對訓練數據不足的問題,提出了一種通過編輯原型(prototypes)來自動生成標注好的數據,通過對質量進行排序來篩選生成的樣本的方法。
二、背景
角色重疊問題(the roles overlap problem):一個論元可以在一句話中扮演不同的角色。例如,"The explosion killed the bomber and three shoppers"這句話中,kill是事件attack的觸發詞,而the bomber既是角色attacker,也是角色victim。
此外,針對現在遠程監督的事件抽取存在的問題,將目光轉向預訓練的語言模型,試圖利用它們從大規模語料庫中獲取的知識來做事件生成。
三、抽取模型
研究將事件抽取看作由兩個子任務(觸發詞抽取、論元抽取)組成,並提出了以預訓練語言模型為基礎的事件抽取器(PLMEE)。
1. 觸發詞抽取器
用於預測token是不是事件的觸發詞。將觸發詞抽取看作一個對token的分類任務,其中label是事件類型。只需要在BERT上添加一個多分類器就可以構建觸發詞抽取器。
2. 論元抽取器
用於提取相關的論元及其扮演的角色。為了克服大部分論元都是長短語以及角色重疊這兩個問題,在BERT上添加了多組二分類器,每組分類器為一類角色服務,確定所有屬於它的論元的范圍(短語開始到結束)。
3. 論元范圍的判定
PLMEE中,一個token t被認定為角色r的論元的開頭的概率是:
被認定為結尾的概率是:
其中下標s代表開頭,e代表結尾。Wsr是二分類器探測角色為r的論元開始的權重,同理Wer是二分類器探測角色為r的論元結束的權重。B是BERT embedding。
對於每個角色r,根據上述概率,可以得到兩個0-1數列Bsr和Ber,代表句子中的token是否是角色為r的論元的開始或結束。最后通過一個有限狀態機來判定論元范圍。
四、訓練數據生成
除了PLMEE之外,還提出了一個基於預訓練語言模型的事件生成方法。通過編輯原型,該方法可以生成數量可控的標記樣本作為額外的訓練語料庫。這個方法分為三步:預處理、事件生成和評分。
Adjunct token:除了觸發詞和論元之外的token,不僅包括單詞和數字,還包括標點符號。例如句子"President Bush is going to be meeting with several Arab leaders"中,is和going就是adjunct token。
1. 預處理
首先在ACE2005數據集中收集論元以及它們所扮演的角色,但是與其他論元重疊的論元除外,因為這些論元大部分是含有不必要信息的長短語。
采用BERT重寫adjunct token,並使用masked language model task (Devlin et al., 2018)對ACE2005數據集進行微調。與BERT的預訓練相同,每次抽樣一批句子,其中mask掉15%。目的是在無監督的情況下預測正確的token。
2. 事件生成
對一個原型執行兩步操作。首先將論元替換為相似的、扮演相同角色的論元。之后用fine-tune的BERT重寫adjunct token。操作后就可得到有標注的新句子。
論元替換
采用相似度作為替換的標准。使用embedding之間的余弦相似度來作為相似度,embed方法采用ELMO。一個論元有80%的概率被替換,20%的概率不變。
Adjunct token重寫
重寫是將一些adjunct token替換為更符合上下文語境的token,具體例子可參照上圖。
3. 評分
該階段是為了量化每個樣本的質量,從中選出有價值的。評分的標准是困惑度(perplexity)和與原數據集的距離。前者反映生成的合理性,后者反應數據間的差異。
困惑度(PPL)
取adjunct token被重寫的平均概率作為生成的句子S'的困惑度:
其中A是S'中被重寫的adjunct toekn集合。
距離(DIS)
采用BERT進行embed,計算句子的余弦相似度:
最后定義質量函數:,其中λ是平衡參數。質量函數用於選擇高質量的樣本。
五、實驗結果
六、不足之處
對於一些論元,重寫會導致其意義發生很大變化。