筆者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等國際知名會議中實體關系推理與知識圖譜補全的相關論文,供自然語言處理研究人員,尤其知識圖譜領域的學者參考,如有錯誤理解之處請指出,不勝感激!(如需轉載,請聯系本人:jtianwen2014,並注明出處)
ACL 2016
Unsupervised Person Slot Filling based on Graph Mining
- 作者:Dian Yu, Heng Ji
- 機構:Computer Science Department, Rensselaer Polytechnic Institute
本文的任務為槽填充(Slot Filling),即從大規模的語料庫中抽取給定實體(query)的被明確定義的屬性(slot types)的值(slot fillers)。對於此任務,本文敘述目前主流的方法可以分為兩類:有監督的分類方法,設計分類器識別給定的實體與值所屬的關系類型,分類器的訓練往往使用如活動學習、利用距離監督的噪聲標注等方法;模式匹配方法,從文本中自動或半自動地抽取和生成詞法或句法的模式,以用於關系的抽取,但因為關系所表述的方式千差萬別,這種模式匹配方法無法擁有較好的召回率。
本文認為,以上兩類方法都無法很好的應對新的語言或是出現新的關系類型的情況,即移植性不強;而且,兩種方法都只是專注於實體和候選值之前的平坦表示,並沒有考慮到它們之間的全局結構關系,以及語句中其他的關系事實的影響。本文重要的算法思想基於以下兩個觀察:
- 在句子的依存圖中,觸發詞結點(trigger)經常是和實體(query)與值(filler)結點都很相關的,並且是圖中的重要節點;
- 當實體(query)與值(filler)結點通過一個關系明確的觸發詞強關聯起來,往往意味着存在一定的關系(slot type)。
基於以上兩個觀察,本文的提出了一種基於圖的槽填充的方法:首先,利用簡單的啟發式規則,從句子中識別出候選實體與屬性值;然后,對於給定候選實體與屬性值對,利用PageRank圖算法和AP(Affinity Propagation)聚類算法自動識別觸發詞;最后,根據識別的觸發詞對屬性類型(slot type)進行分類。
下圖為利用PageRank算法對候選觸發詞結點打分:
下圖為利用AP算法對候選觸發詞進行聚類(關系觸發詞可能不止一個單詞),以選定最終觸發詞。如下圖最終選定“divorced”為最終觸發詞。
筆者:本文主要的思想與創新點在於,以屬性觸發詞為切入點進行關系的挖掘,將PageRank算法與AP算法引入其中,將槽填充問題轉換為圖上的挖掘問題。候選實體與屬性值的識別、屬性類型的分類這兩個部分使用了啟發式的規則與外部的詞典資源。但這中圖挖掘的方法,由於應用句法依存與PageRank算法有可能在計算復雜性上存在問題。
Knowledge Base Completion via Coupled Path Ranking
- 作者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew Lin‡
- 機構†:Institute of Information Engineering, Chinese Academy of Sciences
- 機構‡:Microsoft Research
本文的任務為知識庫補全,即通過考察知識庫中已經存在的事實,自動推理出丟失的事實。本文敘述這項任務的方法大體分為三種:
- Path Ranking 算法(PRA),通過連接實體的已有路徑來預測實體間的潛在關系;
- 基於表示學習的模型,將實體和關系映射為空間中的向量,通過空間中向量的運算來進行推理(如TransE);
- 概率圖模型,如馬爾科夫邏輯網絡及其衍生物。
由於PRA方法具有較好的解釋性,並且不需要額外的邏輯規則,本文主要使用PRA方法對其改進。在利用PRA進行關系推理時,以往的方法都是在推理階段,利用PRA為每個關系獨立建模,也就是為每個關系學習一個獨立的分類器。
本文的初衷是:如果使用PRA對某些關系集體建模是否會得到更好的效果,尤其是當這些關系彼此緊密聯系的時候,比如,“出生”和“生長於”這兩個關系極有可能共同擁有一些關系路徑:“國籍->首都”等。很多研究表明這種多任務學習相比單任務學習而言,往往具有更好的效果。本文提出CPRA的方法,該方法所要解決兩個問題:(1)哪些關系需要組合在一起學習?(2)如何組合在一起學習?
(1)哪些關系需要組合在一起學習?本文提出了一種基於公共路徑的相似度度量方法,並在此基礎上將關系聚成不同的組,同組的關系共同學習。公共路徑的相似度具體值依據兩個關系(或簇)的路徑交集數量占比。
(2)如何組合在一起學習?依循多任務學習的原則,對於共同訓練的分類器使用兩部分參數,即共享參數和私有參數。共享參數可以體現相似關系之間的得共性,私有參數用於描述不同關系之間的特性。這兩類參數在訓練過程中是聯合學習的。
筆者:PRA的方法的應用可能存在局限,比如對於開放域知識圖譜,如Reverb等,其關系類型多樣且未事先定義,則無法對於每個類別訓練分類器;而且這種每個類別訓練分類器的方法消耗實在較大,更不利於給定實體對的關系推理。是否可以統一為一個分類器,或者不是分類器,而是生成器,生成給定實體對的可能關系,這樣就應用於關系類型體系未知的開放域知識圖譜。
Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text
- 作者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung Poon, Chris Quirk
- 機構:Microsoft Research
- 機構∗:University of Washington
本文的任務為知識圖譜補全,推理預測實體間潛在的關系。本文敘述,當前的一些學者將關系路徑信息融入到知識庫嵌入式表示中,取得了非常顯著的結果。知識庫嵌入式表示,指的是將知識庫中實體和關系映射到低維稠密的空間中,知識的推理轉化為實體與關系所關聯的向量或矩陣之間的運算。這種嵌入式的表示,操作花銷較小,推理的效率較高。為了進一步提升基於嵌入式表示的關系推理,一些學者將關系路徑信息融入其中。
本文發現,目前的將關系路徑融入知識庫的嵌入式表示方法存在如下問題:首先,當關系的路徑總類增多時,時間開銷較大,嚴重影響推理的效率;另外,目前的方法只考慮了路徑信息,沒有考慮結點的信息,即使是相同路徑,包含不同結點也擁有不同的信息。本文提出了一種動態規划的方法,可以高效地將關系路徑融入到知識庫的嵌入式表示,並且同時對路徑上的關系類型和結點進行表示。
本文以基因調控網絡為例,網絡的節點是基因,邊為兩個關鍵的關系:正調控、負調控,為了聯合表示文本信息,將基因共現的文本語句的依存關系嵌入到網絡中,所下圖所示,紅色邊為原網絡的調控關系,灰色邊為文本依存信息:
基本的知識圖譜嵌入式表示學習的方法是,首先學習實體和關系的向量(或矩陣)表示,然后一用學習到的參數\(\theta\)和函數\(f(s,r,t|\theta)\)為可能的三元組進行打分。其中,雙線性模型(BILINEAR)用矩陣表征關系,向量表征實體,打分函數\(f\)定義為:\(f(s,r,t|\theta)=x_s^{\rm T}W_rx_t\)。
另外,為了減少參數,本文介紹了另一種模型雙線性-對角模型,即將關系矩陣\(W\)替換為對角矩陣。
將關系路徑引入嵌入式表示一般有兩種方法:(1)利用關系路徑生成輔助的三元組用於訓練(通過隨機游走獲得路徑,端點實體的關系用關系路徑代替);(2)將關系路徑作為特征用於打分,打分函數替換為\(f(s,r,t|\theta,\prod_{s,t})\),\(\prod_{s,t}\)為路徑上關系嵌入式表示的加權求和。對於雙線性模型,關系路徑\(\pi\)的嵌入式表示一般為:\(\Phi_{\pi}=W_{r_1}...W_{r_n}\)。
本文更偏向於第二種方法,因為其對路徑上的關系進行剪枝。本文對\(f(s,r,t|\theta,\prod_{s,t})\)做了詳細設計與定義:用\(F(s,t)\)代表\(\prod_{s,t}\),用\(P(t|s,\pi)\)代表頭實體經過路徑到達尾實體的概率,令:\(F(s,t)=\sum_{\pi}w_{|\pi|}P(t|s,\pi)\Phi(\pi)\)。最終\(f(s,r,t|\theta,\prod_{s,t})\)定義為:
其中\(F(s,t)\)的計算時間消耗較大,本文通過使用動態規划的方法ALL-PATH高效學習與計算該打分函數,使得可以高效地將關系路徑融入到知識庫的嵌入式表示,並且同時對路徑上的關系類型和結點進行表示。本文用參數\(w_{e_i}\)用於表示對經過實體\(e_i\)路徑的影響,對於雙線性模型:\(\Phi_{\pi}=W_{r_1}tanh(w_{e_1})...W_{r_n}tanh(w_{e_n})\)。用\(F_l(s,t)\)表示實體\(s\)和\(t\)之間長度為\(l\)的路徑的加權和,則有:
其中,\(F_l{s,t}=\sum_{\pi \in P_l(s,t)}P(t|s,\pi)\Phi_{\pi}\),\(P_l(s,t)\)表示實體\(s\)和\(t\)之間長度為\(l\)的路徑。
動態規划算法如下圖所示:
筆者:本文針對以往融合路徑信息的嵌入式表示方法的時間復雜度進行優化,並加入節點信息,旨在高效運算並融入更充分的信息。本文的方法ALL-PATH在時間和效果上優於之前的方法。本文的方法的實現基於的是雙線性模型,這里應該只是示例,完全可以將雙線性替換為其他模型,這種關系路徑集成的思想可以應用於很多已有的嵌入式表示學習方法,所以本文的最大亮點應該在於動態規划的提出,用以高效的計算。
TransG : A Generative Model for Knowledge Graph Embedding
- 作者:Han Xiao, Minlie Huang, Xiaoyan Zhu
- 機構:Dept. of Computer Science and Technology, Tsinghua University
本文的任務為知識圖譜表示學習,旨在將知識圖譜映射到低維稠密的向量空間里。與以往研究工作不同,本文將目光聚焦於“多語義關系”,即同一名相的關系可能具有不同的語義含義,如對於關系“HasPart”,對於實體“桌子”和“桌腿”有這種關系,對於“英國”和“倫敦”也同樣具有這樣的關系,但二者所表達的含義卻不盡相同。
不止於感性層面上,本文對TransE的知識圖譜向量表示進行可視化(PCA降維):抽取四種不同關系,將具有給定關系的實體對向量相減(據TransE思想,可以得到關系的向量),將結果向量展示在二維空間里。理想情況下,對於每個關系應該只和一個簇對應,但真實的結果是每個關系不止一個簇,而是多個明顯分開的簇。這也從另一個角度說明了關系的多語義性質。
針對這一問題,本文提出TransG模型,利用貝葉斯非參數無限混合嵌入式表示模型來生成關系的多語義表示。TransG可以自動發現關系的多語義簇,並且利用關系的混合語義對實體對進行翻譯操作,以進行關系推理。
本文利用了兩個重要的模型和算法,分別是貝葉斯非參數無限混合嵌入式表示模型和中餐館過程算法。具體的實體與關系嵌入式表示生成過程如下:
通過該過程會獲得初始化的實體與關系向量,三元組的打分函數為:
不同於以往的方法,本文對於關系的描繪更為細化,對於實體對,可以確切獲得多語義關系的明確語義:
學習過程是是的正例的分數不斷提高,負例的分數不斷減少,最終獲得實體與關系的表示。
筆者:本文的切入點是多語義關系存在於知識庫中,而之前的模型沒有考察並解決這一問題。本文使用非參數貝葉斯模型,借助CRP算法用於對關系多語義的識別與生成。本文主要的貢獻在於提出了多語義關系的問題,並借助CRP解決這一問題。
