Simple BERT Models for Relation Extraction and Semantic Role Labeling
1 論文動機
- 提出了一種基於Bert的模型,來進行關系抽取(Relation Extraction)和語義角色標注(Semantic Role Labeling)
- 不需要結合詞匯和句法的特征,達到了SOTA的表現,為后續的研究提供了Baseline
2 模型介紹
2.1 關系抽取模型
關系抽取的模型示意圖,如圖所示:
輸入句子的構成為: [[CLS] sentence [SEP] subject [SEP] object [SEP]]
為了防止過擬合,對句子中的主語實體和賓語實體使用特殊的token進行mask,比如說[S-PER]表示代表人的主語實體。將經過Mask后的句子經WordPiece分詞器分詞后,輸入給Bert的編碼器
使用表示[[CLS] sentence [SEP]]之間詞匯經Bert得到的向量表示,這里的
並不一定是句子的長度,因為分詞器可能會把單詞分成幾個子單詞
使用表示主語實體的向量
使用表示賓語實體的向量
定義相對於主語實體的位置序列為:
式中,和
分別為主語實體的開始和結束位置,
表示了和主語實體的相關位置
同樣地,定於賓語實體的位置序列為
將位置序列轉換為位置向量,和Bert的表示向量進行拼接,如圖中(a)所示
然后將向量序列輸入給一個Bi-LSTM,獲取每個方向上的最后一個隱含層狀態
輸入給一個單隱含層的神經網絡進行關系預測
2.2 語義角色標注模型
語義角色標注的模型示意圖,如圖所示:
2.2.1 Predicate sense disambiguation,謂詞意義消歧
將這個任務當做序列標注進行處理,句子經WordPiece分詞器分詞后,任何單詞的第一個token標注為O,其余的token標注為X。經Bert后的向量表示為,和謂詞指示器嵌入進行拼接,后經單隱含層的神經網絡進行分類預測
2.2.2 Argument identification and classification,論據識別和分類
模型結構如上圖所示,輸入序列為 [[CLS] sentence [SEP] predicate [SEP]],經Bert后得到表示向量和指示器嵌入進行拼接,經過單層的Bi-LSTM后得到序列各個單詞的隱含層表示為,對於預測詞的表示向量
,和每一個token的表示向量
繼續拼接,輸入給單隱含層的神經網絡進行分類預測
3 實驗表現
關系抽取模型在TACRED數據集上和不同模型的指標對比如圖所示:
語義角色標注模型在CoNLL 2009和out-of-domain數據集上和不同模型的指標對比如圖所示: