本文記錄昨天看的兩篇文章 Knowledge Vault&MLP 和 TATEC。因為后面還安排了別的學習任務,時間不太多了,而且雙線性也不是研究重點,所以只簡單記錄一下模型要點就好了。
Knowledge Vault & MLP
【paper】 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion
【簡介】 本文是谷歌的研究者發表在 KDD 2014 上的工作,提出了一套方法用於自動挖掘知識,並構建成大規模知識庫 Knowledge Vault(KV);KV 的構建包括知識提取器、基於圖的先驗及兩者的融合。本來打開這篇文章是為了看 MLP 模型,但 MLP 只是其中的一個組合部分。
overview
本文的主要貢獻如下:
- KV 從 web 及自由文本中抽取事實三元組(帶有噪聲),並與先驗知識融合,利用先驗知識判斷新挖掘知識的正確性;
- 本文構建的 KV 比其他 KB 的規模更大;
- 評價了不同的抽取方法和先驗方法的效果。
KV 包括三部分組成成分:
- Extractors. 抽取器從 web 資源中抽取三元組,並為三元組計算置信度分數。
- 基於圖的先驗。基於 KB 中已有三元組為可能的候選三元組計算先驗概率。
- 知識融合。基於不同的抽取器和先驗邊計算三元組為真的概率。
本文的框架遵循局部封閉世界假說(Local closed world assumption, LCWA)。封閉世界假說是指不存在於 KB 中的事實都被判定為 false。但由於 KB 本身就是不完整的,因此這種假說不合理。因此本文提出一種啟發式假說,定義了 \(O(s,p)\),對於給定的候選三元組,按照如下規則打標簽:

從 web 中抽取事實
對不同的 web 資源提出了不同的處理方法:
-
對於自由文本 text documents,首先用 NLP 工具進行命名實體識別、詞性標注、共指消解等處理,然后使用遠程監督訓練關系抽取器,並用 bootstrapping 方式挖掘更多實體對。
-
對於 HTML trees(DOM),和自由文本的處理方法一樣,唯一不同的是從 DOM 樹中連接兩個實體獲取特征而不是從自由文本。
-
對於 HTML tables,首先進行命名實體鏈接,然后識別表的每列表示的關系。
-
人工標注頁面(ANO)。只有14個不同屬性的子集,三元組的打分由實體鏈接系統給出。
抽取器融合: 對上面介紹的4種抽取器進行整合,對每個抽取出的三元組分配一個特征向量,並用二分類器計算該特征向量代表的三元組的得分:

分類器為每個抽取器分配一個權重,且每種屬性適配一個單獨的分類器,最后進行整合。
基於圖的先驗
介紹了兩種對三元組進行打分的先驗模型:PRA 和 MLP
Path ranking algorithm(PRA)
PRA 學到的路徑可以被視為規則,根據規則做推斷,進行鏈接預測。
Neural network model(MLP)
將 KB 表示為 3d 矩陣 G,若從 s 到 o 的鏈接 p 存在,則 \(G(s,p,o)=1\),否則 \(G(s,p,o)=0\)。
三元組成立的概率通過元素點積計算:

其中,激活函數 \(\sigma\) 為 sigmoid 或 logistic 函數:

K 約為 60,為隱藏層維度。
還有一種是 NTN 的形式:

本文使用的 MLP 形式為:

實驗發現,兩種用於計算先驗概率的圖模型的效果相差無幾,MLP 的 AUC 是 0.882,PRA 的 AUC 是 0.884。
和抽取器融合類似,也對圖模型 priors 進行了融合。
融合抽取器和 prior
對抽取器和 prior 進行融合,對三元組打分的結果:

與單使用抽取器相比,融合 priors 和抽取器增加了高置信度事實的數量。
【總結】 本文提出了 Web 規模的概率知識庫 Knowledge Vault 的構建過程,將多個抽取器與先驗知識打分模型結合,自動化構建知識庫。
TATEC
【paper】 Effective Blending of Two and Three-way Interactions for Modeling Multi-relational Data
【簡介】 本文是法國 Antoine Bordes 團隊發表在 ECML-PKDD 2014 上的工作,提出了 TATEC(Two and Three-way Embeddings Combination)主要思想是混合二元和三元模型,分別訓練然后進行聯合微調。
motivation
文章提出,之前的模型,要么太復雜導致過擬合,要么太簡單導致 capacity 不夠,因此本文提出折中的辦法,結合 high-capacity模型(三元交互)和 簡單模型(二元交互),分別預訓練並進行聯合微調。
3-way interaction 的 large capacity 會導致過擬合,解決方法有二,一是加正則項,但會削弱模型表現力;而是使用二元交互,對於三元組 \((h,r,t)\),使用其二元交互項 \((h,t)\)、\((t,l)\) 和 \((h,l)\)。文中說 TransE 屬於二元交互模型。但是基於二元交互的方法是有限的,不能表示實體間所有類型的關系。
因此本文提出了一個 latent factor model,結合了 well-controlled 2-way 交互和 high-capacity 3-way 交互。這是一個之前模型的泛化,並且不像 LFM 和 NTN,在二元和三元交互的 component 之間不進行參數共享。
模型
三元組的整體打分函數為二元交互和三元交互兩部分得分之和:

二元交互
bigram 二元交互項:

其中,\(r_1^l\) 和 \(r_2^l\) 是與關系有關的用於頭尾實體投影的兩個向量,\(D\) 是對角矩陣,\(<.|.>\) 是普通的點積。
TransE 可以被視為 \(r_1^l = -r_2^l\) 的特殊情況。
三元交互

其中,\(R^l\) 是維度為 \((d_1,d_2)\) 的矩陣。
文中提到,三元交互模型基本上可以表示實體間的任何交互。這里文章強調了兩點,一是二元和三元兩部分間沒有參數共享,而是沒有用於正則化的全局約束項。
訓練
負采樣:

loss function:

前面提到說沒有正則化,但是訓的時候也加了 L2 范數約束。
訓練時首先分別訓練 bigram term 和 trigram term,然后用學到的權重初始化 full score 並進行微調,用 SGD 訓練 full model。
后面用了整整一章介紹模型的 motivation,並類比推薦系統協同過濾中“用戶-物品”矩陣的各項。
實驗
鏈接預測的結果:


【總結】 文章提出了 TATEC,一種新的方法用於鏈接預測,將二元和三元交互項進行組合,兩部分分別進行單獨預訓練,然后進行聯合微調。