問題提出
針對鏈接預測任務,先前的工作傾向於使用淺層和簡單的模型,如翻譯模型和雙線性模型,但存在表現力差的問題;為了增加模型的表現力,產生了更加深層和復雜模型,如神經網絡架構,但容易過擬合。
接着作者引入了ConvE模型,相對於之間的模型,ConvE模型的優點是表現力強、參數效率高,但仍存在問題,ConvE模型不足以全面捕獲輸入實體和關系之間的交互,僅在輸入實體和關系的矩陣鄰接的區域中建模交互。
為了最大化實體和關系的交互,作者提出了ConvR模型。
模型架構
第一步:給定一個三元組,將關系表征拆分並重塑成一組過濾器;
第二步:將頭實體的關系表征重塑,作為卷積層的輸入;
第三步:使用過濾器在輸入上卷積,捕獲每個過濾器(關系表示的一部分)與輸入(實體表征)的不同區域之間的交互;
第四步:將卷積特征投影並與尾實體的表征相匹配。
與ConvE做對比,ConvE使用的是全局過濾器,而ConvR使用的是關系表征構建出來的自適應過濾器
模型訓練
1對N評分,dropout防止過擬合,批歸一化加快收斂的速度,標簽平滑,Adam優化器
損失函數為交叉熵的形式:
實驗
實驗一:性能比較。在WN18、WN18RR、FB15k、FB15k-237四個數據集上進行鏈接預測實驗
從實驗效果上來看,還不錯,相對於ConvE有了很大的提升。
實驗二:參數效率。
調整過濾器的大小和數量對ConvR的性能影響不大