論文概覽
在本篇論文中,作者將基於復數的知識圖譜嵌入拓展到超復數空間——四元數,每個四元數\(Q\)由一個實數\(r\)和三個虛數單位\(\textbf{i}\),\(\textbf{j}\),\(\textbf{k}\)組成,即\(Q=a+b\textbf{i}+c\textbf{j}+d\textbf{k}\),提出了QuatE模型,該模型通過基於四元數空間的頭尾實體之間的關系旋轉來建模。
四元數運算
本文中提到了四種關於四元數的運算,分別是共軛、范數、內積和Hamilton積。
- 共軛。一個四元組Q的共軛被定義為\(\bar{Q}=a-b\textbf{i}-c\textbf{j}-d\textbf{k}\)
- 范數,這里引入范數是為了下面將關系四元數歸一化為單位四元數。\(\left| Q \right|=\sqrt{a^2+b^2+c^2+d^2}\)
- 內積。四元數\(Q_1 = a_1 + b_1\textbf{i} + c_1\textbf{j} + d_1\textbf{k}\)和\(Q_2 = a_2 + b_2\textbf{i} + c_2\textbf{j} + d_2\textbf{k}\)之間的內積為對應元素相乘再求和。
- Hamilton積。Hamilton積遵循分配率,但不遵循交換律。
模型框架
QuatE模型可大致分為兩個步驟,(1) 使用單位關系四元數旋轉頭部四元數;(2) 在旋轉后的頭部四元數和尾部四元數之間取四元數內積,對每個三元組進行評分。
關系四元數單位化
第一步,將關系四元數\(W_r\)除以其模長\(\left| W_r \right|\)得到單位四元組\(W_{r}^{\vartriangleleft}\),除以范數是為了消除縮放效應,簡單來說就是防止頭實體通過關系旋轉后范數的大小發生變化;
旋轉頭實體
第二步,通過頭實體\(Q_h\)與單位關系四元數\(W_{r}^{\vartriangleleft}\)的Hamilton積旋轉頭實體得到\(W_{h}^{'}\);
其中,\(\circ\)表示基於元素的乘積,這里跟RotatE一樣,假設嵌入維數為k,k維表示用k個四元數表示一個嵌入,基於元素的乘積是指在每一維上單獨進行旋轉
計算得分函數
第三步,將\(W_{h}^{'}\)與尾實體\(Q_t\)作內積,作為鏈接預測任務中的得分函數,得分函數的值越大,說明\(W_{h}^{'}\)與尾實體\(Q_t\)越接近。
損失函數
本文將鏈接預測任務當作是分類任務,即分辨三元組的真假,因此損失函數為正則化后的logistic損失。
建模不同類型的關系
QuatE擴展自ComplEx模型,對對稱、非對稱和反轉關系進行了建模。
建模對稱關系
對稱關系,即\(r(x, y) \Rightarrow r(y, x)\),論文中提到將關系四元數的虛數部分設為0,就可以證明QuatE可以對對稱關系建模,但論文中並沒有給出證明,一句話帶過了。
下面我們來簡單證明一下,設\(W_{r}^{\vartriangleleft}\)的虛數部分全為0:
- \(r(x, y)\)
- \(r(y, x)\)
對比上面兩個公式,顯然結果是一樣的,即\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)。
建模非對稱關系
非對稱關系,即\(r(x, y) \Rightarrow \urcorner r(y, x)\)。為了建模非對稱關系,我們需要證明虛數部分非0時,\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t \neq Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)
- \(r(x, y)\)
- \(r(y, x)\)
這兩個公式部分項的符號是不一樣的,因此\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t \neq Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)。
建模反轉關系
反轉關系,即\(r_1(x, y) \Rightarrow \urcorner r_2(y, x)\)。本文利用四元數的共軛來實現反轉關系的建模,證明\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes \bar{W_{r}^{\vartriangleleft}} \cdot Q_h\)。
顯然,\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes \bar{W_{r}^{\vartriangleleft}} \cdot Q_h\)。
實驗
數據集
WN18, FB15K, WN18RR和FB15K-237
評價指標
MR、MRR和Hits@N
基線
對於基於翻譯的模型,選用TransE、TorusE和RotatE作為基線;對於基於語義匹配的模型,選用DisMult、HolE、ComplEx、SimplE、ConvE、R-GCN和KNGE作為基線。
鏈接預測結果
在WN18和FB15K數據集上鏈接預測的結果:
在WN18RR和FB15K-237數據集上鏈接預測的結果:
\(QuatE^1\)沒有類型限制,\(QuatE^2\)帶有N3正則化和相互學習,\(QuatE^3\)有類型限制,對於類型限制和相互學習,文中並沒有給出相應的解釋,這里我也沒太弄懂。
從模型的效果上看,\(QuatE^2\)在FB15K和FB15K-237上提升很大,證明了N3正則化和相互學習的有效性
對照實驗
共設置了三個對照實驗,對照實驗一去掉了關系四元數的歸一化,對照實驗二是在在頭尾實體之間做Hamilton積,對照實驗三為尾實體增加額外的關系旋轉。
從效果上來看,對照組一和對照組二的模型性能變得更差了,對照組三模型性能沒有明顯改善,而且增加了額外的關系旋轉,模型參數效率降低了。
參數數量比較
相比於RotatE模型,QuatE模型在WN18RR和FB15K-237上參數效率提升很大
總結
本文引入了更具表現力的四元數表征去建模實體和關系;用Hamilton乘積去捕獲潛在的相互依賴關系(所有組件之間),實體和關系之間的交互更頻繁;對對稱、非對稱和反轉三種常見關系類型進行了建模;相比於RotatE模型,QuatE兼顧了性能和參數效率之間的平衡。