Two are Better than One: Joint Entity and Relation Extraction with Table-Sequence Encoders學習筆記


關系抽取學習筆記

Two are Better than One: Joint Entity and Relation Extraction with Table-Sequence Encoders

使用序列表編碼器聯合提取實體和實體關系

設計2個不同的編碼器來補貨實體識別和關系抽取這2中不同類型的信息。

提出“表序列編碼器”,包含2中不同的編碼器:1 表編碼器 2 序列編碼器

在本文中,我們提出了一種新的方法來解決上述局限性。我們不是用單一的表示來預測實體和關系,而是專注於學習兩種表示,分別用於NERRE的序列表示和表表示。一方面,這兩種不同的表示可以用於捕獲特定於任務的信息。另一方面,我們設計了一種機制來允許它們彼此交互,以便利用NERRE任務背后的內在關聯。此外,我們采用神經網絡架構,可以更好地捕捉二維表表示中的結構信息。我們將看到,這種結構信息(特別是表中相鄰條目的上下文)對於獲得更好的性能是至關重要的。

使用BERT 的注意力權值來表(Table)表示

 

NER還是用序列標記問題(BIO),放在對角線。⊥表示沒有關系。矩陣對稱(?)

TEXT EMBEDDING

對於每一個詞,定義xw,詞嵌入。定義xc,字符嵌入,通過LSTM計算,定義xl,帶有上下文的詞嵌入(來自BERT)。

 xc xw xl拼接起來,並用線性投影來形成初始序列。 每個詞被表示為一個H維的向量。

 

TABLE ENCODER

N*N的 向量表。

構建一個上下文無關的表,接着是一個全連接層來使得隱藏層減半。第L層,有XL的規模是N*N*HXLij=ReLULinearSL-1,iSL-1,j))

接下來是MD-RNN  多維RNN

上一層的同位置 傳遞數據,同層的四周4個也傳遞數據給當前cell

迭代計算每個cell的隱藏狀態,形成上下文有關的表:Tl

 

GRU多維適應。

4個方向的RNN

 

根據經驗,我們發現,僅考慮圖4中的情形(a)(c)的情況,其效果並不比同時考慮四種情形的情況差。因此,為了減少計算量,我們使用這樣的設置作為默認值。最終的表表示法是將兩個rnn的隱藏狀態串聯起來:

 

SEQUENCE ENCODER

用表引導的注意力、

表格引導注意力可以擴展為多個頭(V aswani et al.2017),其中每個頭都是具有獨立參數的注意力。我們將它們的輸出串聯起來,並使用一個完全連接的層來獲得最終的注意力輸出。

其余部分與變壓器類似。對於層l,我們使用自注意后的位置前饋神經網絡(FFNN),用殘差連接(He et al.2016)和層歸一化(Ba et al.2016)將注意力和FFNN包起來,得到輸出序列表示

Exploit Pre-trained Attention Weights(利用預先訓練好的注意力權重) 上圖中的虛線就是了。

從本質上說,是從預訓練模型(BERT)中,以注意力權重的形式利用信息。

 把所有頭和所有層的注意力值疊加。

 

L是層  A 是頭

 

SL TL來預測實體和關系標簽的概率分布

 

目標是最小化 LossNER+LossRE 這個損失。

在評價過程中,關系的預測依賴實體的預測。首先實體預測,查關系概率表看實體之間是否存在有效的關系。

選擇最大概率 來預測每個詞的實體標簽

將實體上的關系映射為在實體的單詞上概率最高的關系類。考慮2個方向的實體標簽

 

B=begin E=end

標簽矩陣對稱但是方向相反。

實驗

關系不對稱,兩個實體的順序很重要。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM