知識圖譜表示學習與關系推理(2016-2017)(三)


筆者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等國際知名會議中實體關系推理與知識圖譜補全的相關論文,供自然語言處理研究人員,尤其知識圖譜領域的學者參考,如有錯誤理解之處請指出,不勝感激!(如需轉載,請聯系本人:jtianwen2014,並注明出處

ISGIR 2016

Hierarchical Random Walk Inference in Knowledge Graphs

  • 作者:Qiao Liu, Liuyi Jiang, Minghao Han, Yao Liu, Zhiguang Qin
  • 機構:School of Information and Software Engineering, University of Electronic Science and Technology of China

--------論文掠影--------

本文面向的任務是基於知識圖譜的關系推理。本文通過對比考察PRA方法和TransE方法在關系推理上的執行效果並分析原因,在PRA基礎上提出層次的隨機游走算法HiRi進行實體關系推理。

本文首先敘述了基於知識圖譜的關系推理的相關工作,大體分為三種方法:首先是統計關系學習方法(SRL),如馬爾科夫邏輯網絡、貝葉斯網絡,但這類方發需要設計相應的規則,因此沒有很好的擴展性和泛化性;嵌入式表示的方法,旨在將實體和關系映射為空間中的向量,通過空間中向量的運算來進行推理(如TransE),該方法取得了較好的准確率,但分布式表示的解釋性不強,另外,較難實現並行計算;基於關系路徑特征的隨機游走模型,該方法可以進行並行計算,具有較好的執行效率,但准確率與召回率相比嵌入式表示學習的方法存在劣勢。本文的想法是:是否可以設計算法同時實現隨機游走模型的執行效率以及保留嵌入式表示學習方法的准確率?

--------方法介紹--------

本文對TransE方法(嵌入式表示學習的代表)和PRA方法(隨機游走模型的代表)進行對比,在一對多、一對一、多對多、多對一這四類關系上進行對比分析:

對比發現:在1:M關系上,PRA遠不如TransE;但在M:1關系上,兩者很接近。有此現象,本文的第一個假設認為可以將知識圖譜看做無向圖,以此來規避1:M關系上的弱勢。

另外,PRA方法在M:M關系上也只達到了TrasnE方法效果的一半,本文認為這說明了PRA在多對多關系上抽取的路徑特征並沒有充分地利用多對多關系產生的簇中的連接信息(文中有舉例說明這一點)。相比而言,嵌入式學習的方法由於將知識圖譜全局信息編碼到向量空間里,所以可以充分利用到這種信息。

在利用多對多推理關系時,經常會用到關系的反向,即從尾實體到頭實體的方向,這種推離的方法可以使用odd-hop隨機游走模型來建模,基於此本文的第二個假設是:**具有拓撲結構的關系明確的簇可能會涵蓋對推理很有幫助的信息,那么,基於關系學習算法的隨機游走可以增強推理能力。 **

本文提出了一種層次化推理的架構,共分為三個部分:全局推理、局部推理、推理結果融合,結構框圖如下:

全局推理是利用PRA算法進行推理,以得到三元組成立的概率\(f(h,r_i,t)\)局部推理時在特定關系的子圖(簇)上計算一個3跳的概率矩陣,以得到存在可能該關系的三元組概率\(g(h,r_i,t)\),由於是在一個簇上進行的,這是一個局部的推理。融合的過程是利用一個線性模型對兩部分的概率融合,以得到最終的概率。

筆者:本文通過分析PRA與TransE的在不同類型關系上的差距,提出了兩個假設,並在此基礎上提出層次化的推理方法HiRi,即在全局和局部分別進行關系推理,最終融合在一起獲得推理結果。本文在第二個假設的提出上沒有給出太多明確的解釋,所舉的例子和該假設的提出在遞進關系上有些牽強,筆者未理清思路。另外,3跳的由來是否來自於“關系-關系反向-關系”路徑,即3跳回到原關系?對於假設一,將關系看做無向的,會帶來哪些不良后果?前人是否有這方面的探討?

IJCAI 2016

  • 作者:Han Xiao, Minlie Huang, Xiaoyan Zhu
  • 機構:Dept. of Computer Science and Technology, Tsinghua University

--------論文掠影--------

本文提出:目前已有的知識表示學習方法無法實現精確鏈接預測,本文認為有兩個原因導致了這一現象的出現:ill-posed algebraic problemadopting an overstrict geometric form

其中,ill-posed algebraic problem指的是:一個方程組中的方程式個數遠大於變量個數。本文以翻譯模型為代表敘述這一問題。翻譯的目的是,對知識庫的三元組的嵌入式表示滿足\(\boldsymbol {\rm {h_r+r=t_r}}\),如果三元組的數量為\(T\),嵌入式表示的維度為\(d\),那么一共有\(T*d\)個方程式,而所需要學習的變量一共有\((E+R)*d\),其中\(E,R\)表示實體和關系類型的數量。由於三元組的數量遠大於實體和關系類型的數量,那么這種翻譯模型存在嚴重的ill-posed algebraic problem問題。

對於一個ill-posed algebraic系統,所求得的解經常是不精確且不穩定的,這也正是以往方法無法進行精確鏈接預測的原因之一。為此,本文提出一個基於流形(manifold)的原則,用\(\mathcal{M}(\boldsymbol {\rm {h,r,t}})=D_r^2\)用來代替\(\boldsymbol {\rm {h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函數。

另外,對於TransE的方法,對於給定的頭實體和關系,應用於\(\boldsymbol {\rm {h+r=t}}\)所得到的尾實體幾乎是一個點,這對於多對多關系而言顯然是不正確的,這是一種overstrict geometric form。前人的一些方法如TransH、TransR將實體和關系映射到一些與關系相關的子空間中來緩解這一問題,然而,這種問題在子空間中仍然存在。這種過於嚴苛的形式或導致引入大量的噪聲元素,在鏈接預測的過程中無法准確預測。

如下圖所示,越靠近圓心組成正確三元組的可能性越大,藍色為正確的答案,紅色為噪聲,其中TransE的方法無法很好地區分,而本文提出的ManifoldE可以很好的區分噪聲數據。

--------方法介紹--------

本文提出用\(\mathcal{M}(\boldsymbol {\rm {h,r,t}})=D_r^2\)用來代替\(\boldsymbol {\rm {h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函數。打分函數定義為:

\[f_r(h,t)=||\mathcal{M}(h,r,t)-D_r^2||^2 \]

對於\(\mathcal{M}\)的定義,其中一種以球體為流形。即對於給定頭實體和關系類型,尾實體在向量空間中分布在以\(\boldsymbol {\rm {h+r}}\)為球心的球面上,此時:

\[\mathcal{M}(h,r,t)=||\boldsymbol {\rm {h+r-t}}||_2^2 \]

這里的向量可以應用Reproducing Kernel Hilbert Space (RKHS)映射到Hilbert空間,以更高效地表征流形。

考慮到球體不易相交,而這可能導致一些實體的損失,本文敘述可以以超平面為流形。即對於給定頭實體和關系類型,尾實體位於以\((\boldsymbol {\rm {h+r_{head}}})^{\rm {T}}\)為方向、偏移量與\(D_r^2\)相關的超平面上。在空間中,只要兩個法向量不平行,這兩個超平面就會有相交。流形函數定義如下:

\[\mathcal{M}(h,r,t)=(\boldsymbol {\rm {h+r_{head}}})^{\rm {T}}(\boldsymbol {\rm {t+r_{tail}}}) \]

本文敘述為了增加給定頭實體和關系推理出精確的尾實體數量,對向量絕對值化:

\[\mathcal{M}(h,r,t)=|\boldsymbol {\rm {h+r_{head}}}|^{\rm {T}}|\boldsymbol {\rm {t+r_{tail}}}| \]

其中,\(|\boldsymbol {\rm {w}}|=(|w_1|,|w_2|,|w_3|,...,|w_n|)\)

對於以往方法存在的ill-posed問題,本文的方法對其較好地解決。以球形為例,本文對於每個三元組只對應一個等式:\(\sum_{i=1}^{d}(h_i+r_i-t_i)^2=D_r^2\),所以如果滿足\(d\geq \frac {\#Equation}{E+R}=\frac {T}{E+R}\)。要滿足這一條件只需適當增加向量的維度,從而較好的實現精確預測。

訓練的過程是增加正例的分數,而減小負例的分數,目標函數如下:

\[\mathcal{L}=\sum_{(h,r,t)\in \Delta}\sum_{(h',r',t')\in \Delta '}[f_r'(h',t')-f_r(h,t)+\gamma]_+ \]

實驗結果顯示該方法較好的實現了精確鏈接預測(hit@1):

筆者:本文提出之前的表示學習無法較好的實現精確鏈接預測,並提出造成該問題的兩點原因:ill-posed algebraic problemadopting an overstrict geometric form,並針對這兩個點問題切中要害提出基於流形的表示學習方法,實驗結果顯示該方法較好的實現了精確鏈接預測。

Text-enhanced Representation Learning for Knowledge Graph

  • 作者:Zhigang Wang and Juanzi Li
  • 機構:Tsinghua University

本文面向知識圖譜的表示學習任務,提出利用外部文本中的上下問信息輔助知識圖譜的表示學習。

本文敘述:TransE、TransH、TransR等方法無法很好的解決非一對一關系,而且受限於知識圖譜的數據稀疏問題,基於此本文提出利用外部文本中的上下問信息輔助知識圖譜的表示學習。類似距離監督,本文首先將實體回標到文本語料中;以此獲取到實體詞與其他重要單詞的共現網絡,該網絡可以看做聯系知識圖譜與文本信息的紐帶;基於此網絡,定義實體與關系的文本上下文,並將其融入到知識圖譜中;最后利用翻譯模型對實體與關系的表示進行學習。

下圖是一個簡單的圖示:

Representation Learning of Knowledge Graphs with Hierarchical Types

  • 作者:Ruobing Xie, Zhiyuan Liu, Maosong Sun
  • 機構:Tsinghua University

本文面向知識圖譜的表示學習任務,提出融入實體類型信息輔助知識圖譜的表示學習。

本文敘述:目前的大多數方法專注於利用知識圖譜中三元組結構的表示學習,而忽略了融入實體類型的信息。對於實體而言,對於不同的類型含義應該具有不同的表示。本文從Freebase中獲取實體的類型信息,並將其層次化表示,並設計了兩種編碼方式,對於不同的關系通過參數調整獲得對應的實體表示。

Knowledge Representation Learning with Entities, Attributes and Relations

  • 作者:Yankai Lin, Zhiyuan Liu, Maosong Sun
  • 機構:Tsinghua University

本文面向知識圖譜的表示學習任務,提出利用實體、屬性、關系三個元素來進行表示學習。

本文提出對屬性和關系加以區分,並在表示學習的過程中區別對待,本文首先提出屬性與關系的區別,本文敘述:屬性的值一般是抽象的概念,如性別與職業等;而且通過統計發現,屬性往往是多對一的,而且對於特定的屬性,其取值大多來源於一個小集合,如性別。對關系與屬性采用不同的約束方式進行獨立表示學習,同時提出屬性之間的更強的約束關系。本文想法新穎,很值得借鑒。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM