simple bert model 用於短文本關系抽取


Simple BERT Models for Relation Extraction and Semantic Role Labeling

1 論文動機

  • 提出了一種基於Bert的模型,來進行關系抽取(Relation Extraction)和語義角色標注(Semantic Role Labeling)
  • 不需要結合詞匯和句法的特征,達到了SOTA的表現,為后續的研究提供了Baseline

2 模型介紹

2.1 關系抽取模型

關系抽取的模型示意圖,如圖所示:

輸入句子的構成為: [[CLS] sentence [SEP] subject [SEP] object [SEP]]

為了防止過擬合,對句子中的主語實體和賓語實體使用特殊的token進行mask,比如說[S-PER]表示代表人的主語實體。將經過Mask后的句子經WordPiece分詞器分詞后,輸入給Bert的編碼器

使用[公式]表示[[CLS] sentence [SEP]]之間詞匯經Bert得到的向量表示,這里的[公式]並不一定是句子的長度,因為分詞器可能會把單詞分成幾個子單詞

使用[公式]表示主語實體的向量

使用[公式]表示賓語實體的向量

定義相對於主語實體的位置序列為[公式]

[公式]

式中,[公式][公式]分別為主語實體的開始和結束位置,[公式]表示了和主語實體的相關位置

同樣地,定於賓語實體的位置序列為[公式]

將位置序列轉換為位置向量,和Bert的表示向量[公式]進行拼接,如圖中(a)所示

然后將向量序列輸入給一個Bi-LSTM,獲取每個方向上的最后一個隱含層狀態

輸入給一個單隱含層的神經網絡進行關系預測

2.2 語義角色標注模型

語義角色標注的模型示意圖,如圖所示:

2.2.1 Predicate sense disambiguation,謂詞意義消歧

將這個任務當做序列標注進行處理,句子經WordPiece分詞器分詞后,任何單詞的第一個token標注為O,其余的token標注為X。經Bert后的向量表示為[公式],和謂詞指示器嵌入進行拼接,后經單隱含層的神經網絡進行分類預測

2.2.2 Argument identification and classification,論據識別和分類

模型結構如上圖所示,輸入序列為 [[CLS] sentence [SEP] predicate [SEP]],經Bert后得到表示向量和指示器嵌入進行拼接,經過單層的Bi-LSTM后得到序列各個單詞的隱含層表示為[公式],對於預測詞的表示向量[公式],和每一個token的表示向量[公式]繼續拼接,輸入給單隱含層的神經網絡進行分類預測

3 實驗表現

關系抽取模型在TACRED數據集上和不同模型的指標對比如圖所示:

語義角色標注模型在CoNLL 2009和out-of-domain數據集上和不同模型的指標對比如圖所示:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM