知識圖譜表示學習與關系推理(2016-2017)(二)


筆者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等國際知名會議中實體關系推理與知識圖譜補全的相關論文,供自然語言處理研究人員,尤其知識圖譜領域的學者參考,如有錯誤理解之處請指出,不勝感激!(如需轉載,請聯系本人:jtianwen2014,並注明出處

EMNLP 2016

A Position Encoding Convolutional Neural Network Based on Dependency Tree for Relation Classification

  • 作者:Yunlun Yang, Yunhai Tong, Shulei Ma, Zhi-Hong Deng
  • 機構:School of Electronics Engineering and Computer Science, Peking University

本文的任務為關系分類,即對於給定句子中的給定實體對進行關系分類。本文敘述,傳統特征選擇的方法嚴重依賴於特征的質量以及詞語資源,為了達到最優往往需要耗時的人工選擇特征子集。基於核函數的方法雖然不必選擇特征,但仍需精心設計的核函數並具有較大的計算開銷。最近,隨着神經網絡的興起,深度學習所提供的端到端的方法被應用於很多經典的自然語言處理問題。RNN和CNN已經被證明對關系分類具有極大幫助。

然而,一些研究工作表明傳統的特征對於關系分類的神經網絡方法仍有提高作用,可以提供更多的信息。一個簡單而可行的方法是將詞語級的特征和神經網絡獲取的特征簡單組合(一般是連接起來),組合后的表示輸入到分類器。另一種更加復雜的方法是根據句子的句法依存樹調整神經網絡的結構,取得了較好的效果。

本文認為,句法依存樹在關系分類的任務上是很有價值的。本文發現實體對間的依存路徑對關系分類更有價值,相比於整體句子的依存路徑,由於其依存路徑的距離往往小於句子的依存路徑距離,剪枝后的實體間依存路徑減少了很多噪聲信息。為了更好的利用句法依存所提供的語言學知識,本文提出了基於句法依存樹和的位置編碼卷積神經網絡方法PECNN。方法的過程圖如下:

 

每個詞的表示由兩部分構成:詞向量、該詞的依存樹位置特征。位置特征的獲取主要思想是將離散的位置映射到實數向量,它和詞向量相似,只不過是將詞替換為離散的距離。本文提出了兩種方法來定義依存樹中的位置特征TPF1、TPF2。TPF1中距離定義為當前詞到目標實體的最短路徑中依存弧的個數,映射方式和PF相同,即不同的距離隨機初始化一個固定維度的向量,訓練的過程中學習。一個詞到實體的最短路徑可以划分為兩個子路徑:被最低祖先節點分割,TPF2則將距離用二元組表示,分別代表兩個子路徑的長度。下圖是各個詞語到實體Convulsions的TPF1與TPF2:

 

典型的CNN的一個卷積窗口每次獲取當前詞的鄰近上下文詞語作為輸入,在本文中為了充分利用樹結構信息,本文將當前詞的父節點和子節點作為作為其鄰近上下文輸入到卷積窗口,相應的本文對卷積核也做了修改,使用了兩種卷積核:Kernel-1、Kernel-2,具體定義見論文。其中Kernal-1旨在從依存樹中多層次抽取特征,而Kernel-2專注於挖掘共享父節點的詞之間的語義信息。兩個核函數的大小均取3。最后將Kernel-1、Kernel-2分別池化並拼接在一起作為CNN輸出。

筆者:本文利用卷積神經網絡對實體關系進行分類,創新性地將依存樹作為輸入,將詞在樹中的位置信息嵌入式表示並拼接到詞向量中共同學習,同時,本文對CNN面向樹結構設計了獨特的卷積核。本文提出的方法在實體關系分類任務上,相比於未使用位置信息的CNN和LSTM取得了進一步提高。在實驗中本文也將POS等特征融入PECNN,也取得了較好的結果。但文中似乎未探討卷積核設計對結果的影響,面向樹結構的卷積核的設計是否是本文獨立提出的?讀者可參看文中參考文獻探尋一下。

Jointly Embedding Knowledge Graphs and Logical Rules

  • 作者:Shu Guo, Quan Wang, Lihong Wang§, Bin Wang, Li Guo
  • 機構:Institute of Information Engineering, Chinese Academy of Sciences

本文的任務為知識圖譜表示學習,本文提出邏輯規則包含豐富的背景信息,但始終沒有很好的在知識圖譜表示學習的任務上被研究。本文提出KALE的方法,將知識圖譜與邏輯規則進行聯合嵌入表示學習。

之前有學者同時利用知識表示方法和邏輯規則,但二者是分開建模的,這也使得並未得到更好的嵌入式表示。Rocktaschel et al. (2015)提出聯合模型將一階邏輯融入嵌入式表示,但這項工作專注於關系分類,對實體對進行嵌入表示僅創建一個向量表示,而不是實體擁有各自的表示。

KALE方法可分為三個部分:三元組建模、邏輯規則建模,以及聯合學習。一個整體的方法框圖如下圖所示:

 

對於三元組建模部分使用簡單的翻譯模型(TransE衍生)完成,具體的打分函數如下:

\[I(e_i, r_k, e_j)=1-\frac {1}{s\sqrt {d}}||\mathbf{e}_i+\mathbf{r}_k-\mathbf{e}_j||_1 \]

對於邏輯規則建模部分,本文使用t-norm模糊邏輯(t-norm fuzzy logics),本文主要考慮兩種類型的邏輯:第一類是:\(\forall x,y: (x,r_s,y)\Rightarrow (x,r_t,y)\),給定\(f\triangleq (e_m,r_s,e_n)\Rightarrow (e_m,r_t,e_n)\),置信度的計算如下:

\[I(f)=I(e_m,r_s,e_n)\cdot I(e_m,r_t,e_n)-I(e_m,r_s,e_n)+1 \]

其中,\(I(\cdot ,\cdot ,\cdot)\)是三元組建模時的置信度函數。

第二類是:\(\forall x,y,z: (x,r_{s1},y)\land (y,r_{s2},z)\Rightarrow (x,r_t,z)\),給定\(f\triangleq (e_l,r_{s1},e_m)\land (e_m,r_{s2},e_n)\Rightarrow (e_l,r_t,e_n)\),置信度的計算如下:

\[I(f)=I(e_l,r_{s1},e_m)\cdot I(e_m,r_{s2},e_n)\cdot I(e_l,r_t,e_n)-I(e_l,r_{s1},e_m)\cdot I(e_m,r_{s2},e_n)+1 \]

聯合學習的過程同樣是時整理三元組的置信度遠大於負例三元組的置信度。

值得注意的是,雖然規則只有兩種,但為了應用於實際必須找到規則的關系實例,為了緩解人工的壓力,本文使用了半自動的方法構造規則關系實例。其方法是,首先利用TransE學習到實體和關系的表示,為可能存在這兩個邏輯規則的實體關系計算置信度,然后進行排序,進而選擇符合邏輯規則的實體關系實例。部分實例如下:

 

筆者:本文提出將邏輯規則融入知識圖譜嵌入式表示學習的方法,並且邏輯規則和三元組的學習是聯合進行的。方法提升的瓶頸似乎在邏輯規則的選擇與實例的構造上,本文使用了本自動的方法構建,雖然這一部分並非本文重點,但確實該方法是夠有效可以應用於大規模知識圖譜的關鍵,本文對FB15K構建了47個規則實例,但對於大規模知識圖譜這些規則還遠遠不夠,這種規則的方法存在移植性的問題,是否可以考慮使用隨機游走獲取此類邏輯規則,類似PRA中使用的方法。另外,將關系路徑融入表示學習的方法和本文的方法較為類似,實質上都是利用關系路徑去推理關系。

Mining Inference Formulas by Goal-Directed Random Walks

  • 作者:Zhuoyu Wei, Jun Zhao and Kang Liu
  • 作者:University of Chinese Academy of Sciences

本文的任務為面向知識圖譜的實體關系推理,即利用知識圖譜中已有的關系推理新的關系事實。推理規則對於基於知識圖譜的關系推理有着顯著的作用,而人工構造大量的推理規則是不現實的。目前基於數據驅動的自動挖掘推理規則的方法中,隨機游走的方法被認為最適用於知識圖譜。然而,在知識圖譜中無目的的單純隨機游走挖掘有價值的推理規則的效率較低,甚至會引入誤導的推理規則。盡管一些學者提出使用啟發式規則指導隨機游走,但由於推理規則的多樣性,這種方法仍無法取得較好的效果。

針對以上現狀,本文提出一種目標引導的推理規則挖掘算法:在隨機游走的每一步使用明確的推理目標作為方向。具體地,為了達到目標引導的機制,在每一步隨機游走的過程中,算法根據最終目標動態地估計走向各個鄰居的潛在可能性,根據潛在可能性分配游走到各個鄰居的概率。比如,當推理“一個人的語言”時,算法更傾向走“國籍”邊而非“性別”邊。

本文首先回顧了基本的用於推理規則挖掘的隨機游走算法,其中也提到早期基於枚舉的(枚舉給定滿足關系的實體對之間的所有路徑)根據頻率計算置信度的推理規則挖掘算法。隨機游走算法隨機地(概率均等,和出度有關)選擇下一跳到達的鄰居,而非遍歷所有鄰居。由此可見,這種隨機游走的算法是獨立用目標的。而且,由於隨機性,隨機游走無法保證高效低挖掘到目標實體對的路徑,甚至引入噪聲。為了緩解這一問題,PRA引入了啟發式的規則:對概率矩陣進行修改,是的鄰居的選擇並不均等,而是依據到達目標實體的可能性。

為了實現目標引導的隨機游走,本文對給定目標(\(\rho=R(H,T)\))的情況下,對實體\(i\)\(j\)的連邊g(關系\(r\))被選擇的概率定義為:

\[P_{r_{i,j}}= \begin{cases} \frac {\Phi (r(i,j),\rho)}{\sum_{k\in Adj(i)}\Phi (r(i,j),\rho)}, &\mbox{}j\in Adj(i)\\ 0, &\mbox{}j\notin Adj(i) \end{cases} \]

其中,\(\Phi(r(i,j),\rho)\)是在給定目標\(\rho\)情況下,對實體\(i\)\(j\)的連邊被選擇的可能性測量。路徑的出發點為\(H\),最終要到達\(T\),游走的過程中遞歸定義已走路徑的似然為:\(P_{pHt}=P_{pHs}\cdot P_{r_st}\)。似然函數定義為:

\[\rm{max} P_{\mathbb{P}}=\prod_{pHt\in \mathbb{P}}P_{pHt}^{a}(1-P_{pHt})^{b+c} \]

其中\(\mathbb{P}\)是隨機游走獲得的路徑集合,\(a,b,c\)分別對應三種情況,a)\(t=T\)且產生正確的推理規則;a)\(t\not=T\);c)\(t=T\)且產生噪聲推理規則;\(a,b,c\)都是0-1值,且每次有且只有一個為1。將最大化轉為最小化\(L_{rw}=-\rm{log} P_{\mathbb{P}}\),本文中又將該目標函數划分為兩部分來計算:\(L_{rw}=L_{rw}^t+\lambda L_{rw}^{inf}\)。對於一個明確的路徑\(p\)\(L_{rw}\)可以寫為:

\[L_{rw}(p)=-y\rm{log} P_{p}-(1-y)\rm{log} (1-P_{p}) \]

\(\Phi(r(i,j),\rho)\)的計算需要融入知識圖譜全局的信息,為了減少計算量,本文引入知識圖譜的嵌入表示來計算\(\Phi\):

\[\Phi(r(i,j),\rho)=\Psi(E_{r(i,j)},E_{R(H,T)}) \]

其中,\(\Psi(E_{r(i,j)},E_{R(H,T)})=\sigma(E_{r(i,j)}\cdot E_{R(H,T)})\)\(E_{r(i,j)}=[E_r, E_j]\)\(E_{R(H,T)}=[E_R, E_T]\)\(E_r,E_j,E_R,E_T\)代表關系和實體的嵌入式表示。

訓練推理模型的算法如下:

最終的推理是利用打分函數,對規定實體對的不同關系進行打分:

\[\mathcal{X}(\rho)=\sum_{f\in F_{\rho}}\delta(f) \]

其中,\(F_{\rho}\)是隨機游走為關系找到的推理規則集合,\(\delta(f)=w_f\cdot n_f\)。最后本文應用邏輯斯諦回歸來對實體關系概率進行計算:

\[P(\rho = y|\mathcal{X})=\mathcal{F}(\mathcal{X})^y(1-\mathcal{F}(\mathcal{X}))^{1-y} \]

\[\mathcal{F}(\mathcal{X})=\frac{1}{1+e^{-x}} \]

筆者:對於隨機游走的無目標指導從而導致推理規則挖掘效率低並引入噪聲的問題,本文在隨機游走的每一步引入目標的指導,即根據路徑對目標實現的可能性計算游走到各個鄰居的概率,而不是隨機選擇。

Lifted Rule Injection for Relation Embeddings

  • 作者:Thomas Demeester, Tim Rocktäschel and Sebastian Riedel
  • 機構:Ghent University - iMinds
  • 機構:University College London

本文提出了一種將規則注入到嵌入式表示中,用於關系推理的方法。本文敘述,嵌入式的表示方法可以從大規模知識圖譜中學習到魯棒性較強的表示,但卻經常缺乏常識的指導。將二者融合起來的方法,已經取得了較好的效果,其常識經常以規則的形式出現。但在大規模知識圖譜中,由於一些規則並不是獨立於實體元組的,所以這些規則所能覆蓋的實例僅占一小部分,如:\(\forall x: \rm{isMan}(x)\Rightarrow \rm{isMortal}(x)\)

本文提出將隱式的規則融入到實體和關系的分布式表示中。本文首先回顧了Riedel et al. (2013)的工作,在該工作中,作者用兩個向量\(\boldsymbol{r,t}\)來分別表征關系和實體元組(頭尾實體對),優化的目標是:\(\boldsymbol{r_p^{\rm{T}}t_p\leq r_q^{\rm{T}}t_q}\),其中\(p\)代表負例的標識。並以此優化目標定義相應的損失函數:

\[\mathcal{L}_R=\sum_{(r,t_q)\in \mathcal{O},t_p\in \mathcal{T},(r,t_p)\notin \mathcal{O}}l_R(\boldsymbol{r^\rm{T}[t_p-t_q]}) \]

為了將如:\(\forall t\in \mathcal(T): (r_p,t)\Rightarrow (r_q,t)\)的規則融入分布式表示,本文模仿上述方法,可以將上述規則轉化為:

\[\forall t\in \mathcal{T}:\boldsymbol{r_p^{\rm{T}}t_p\leq r_q^{\rm{T}}t_q} \]

也就是左側元組分數越高,右側元組分數必然更高,從而達到左側元組成立,右側一定成立的推理原則。同時優化損失函數:

\[\mathcal{L}_R=\sum_{\forall t \in \mathcal{T}}l_R(\boldsymbol{[t_p-t_q]^\rm{T}\tilde t}) \]

其中,\(\boldsymbol{\tilde t}:=t/{||t||_1}\)

為了減少計算花銷,同時到達獨立於實體元組的目的,本文對目標損失函數做了如下修改:

\[\mathcal{L}_I=\sum_{\forall t \in \mathcal{T}}l_I(\sum_{i=1}^{k}\tilde t_i\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i}) \]

進一步有:

\[\mathcal{L}_I\leq \sum_{i=1}^{k}l_I(\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i})\sum_{\forall t \in \mathcal{T}}\tilde t_i \]

令:

\[\mathcal{L}_I^U:= \sum_{i=1}^{k}l_I(\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i}) \]

通過最小化損失函數\(\mathcal{L}_I^U\),可以將隱式規則\((r_p,t)\Rightarrow (r_q,t)\)融入到表示中。其他細節請參看原文,這里不做贅述。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM