關系抽取學習筆記
Two are Better than One: Joint Entity and Relation Extraction with Table-Sequence Encoders
使用序列表編碼器聯合提取實體和實體關系
設計2個不同的編碼器來補貨實體識別和關系抽取這2中不同類型的信息。
提出“表序列編碼器”,包含2中不同的編碼器:1 表編碼器 2 序列編碼器
在本文中,我們提出了一種新的方法來解決上述局限性。我們不是用單一的表示來預測實體和關系,而是專注於學習兩種表示,分別用於NER和RE的序列表示和表表示。一方面,這兩種不同的表示可以用於捕獲特定於任務的信息。另一方面,我們設計了一種機制來允許它們彼此交互,以便利用NER和RE任務背后的內在關聯。此外,我們采用神經網絡架構,可以更好地捕捉二維表表示中的結構信息。我們將看到,這種結構信息(特別是表中相鄰條目的上下文)對於獲得更好的性能是至關重要的。
使用BERT 的注意力權值來表(Table)表示
NER還是用序列標記問題(BIO),放在對角線。⊥表示沒有關系。矩陣對稱(?)
TEXT EMBEDDING:
對於每一個詞,定義xw,詞嵌入。定義xc,字符嵌入,通過LSTM計算,定義xl,帶有上下文的詞嵌入(來自BERT)。
把 xc xw xl拼接起來,並用線性投影來形成初始序列。 每個詞被表示為一個H維的向量。
TABLE ENCODER
N*N的 向量表。
構建一個上下文無關的表,接着是一個全連接層來使得隱藏層減半。第L層,有XL的規模是N*N*H。XLij=ReLU(Linear(SL-1,i,SL-1,j))
接下來是MD-RNN 多維RNN。
上一層的同位置 傳遞數據,同層的四周4個也傳遞數據給當前cell。
迭代計算每個cell的隱藏狀態,形成上下文有關的表:Tl
GRU多維適應。
4個方向的RNN
根據經驗,我們發現,僅考慮圖4中的情形(a)和(c)的情況,其效果並不比同時考慮四種情形的情況差。因此,為了減少計算量,我們使用這樣的設置作為默認值。最終的表表示法是將兩個rnn的隱藏狀態串聯起來:
SEQUENCE ENCODER
用表引導的注意力、
表格引導注意力可以擴展為多個頭(V aswani et al., 2017),其中每個頭都是具有獨立參數的注意力。我們將它們的輸出串聯起來,並使用一個完全連接的層來獲得最終的注意力輸出。
其余部分與變壓器類似。對於層l,我們使用自注意后的位置前饋神經網絡(FFNN),用殘差連接(He et al., 2016)和層歸一化(Ba et al., 2016)將注意力和FFNN包起來,得到輸出序列表示
Exploit Pre-trained Attention Weights(利用預先訓練好的注意力權重) 上圖中的虛線就是了。
從本質上說,是從預訓練模型(BERT)中,以注意力權重的形式利用信息。
把所有頭和所有層的注意力值疊加。
L是層 A 是頭
用SL 和TL來預測實體和關系標簽的概率分布
目標是最小化 LossNER+LossRE 這個損失。
在評價過程中,關系的預測依賴實體的預測。首先實體預測,查關系概率表看實體之間是否存在有效的關系。
選擇最大概率 來預測每個詞的實體標簽
將實體上的關系映射為在實體的單詞上概率最高的關系類。考慮2個方向的實體標簽
B=begin E=end
標簽矩陣對稱但是方向相反。
實驗
關系不對稱,兩個實體的順序很重要。