來源:KDD 2018
原文:
HEER
注: 若有錯誤,歡迎指正
這篇KDD’18的文章,沒有按照常規的方法將所有的node嵌入到同一的空間,因為文章提出 node 因為連接的 edge 類型(type)不同,存在不兼容(incompatibility)的特性,所以最好能夠根據不同的edge type來定義不同度量空間(metric space),保持同一個度量空間下,node的兼容性。
1. Abstract
在本文中,作者認為異構信息網絡(HIN)中隱含着豐富信息的同時也引入了潛在的不兼容性,為了保留HIN中豐富但可能不兼容的信息,提出對HIN的綜合轉錄問題。還需要提供一種易於使用的方法來有效利用 HIN 中的信息。本文提出HEER方法: 通過對 HIN 的邊緣表示,與正確學習的異構度量相結合。
2. Introduction
網絡嵌入學習節點的低維表示可以在原始網絡中編碼其語義信息,且容易和機器學習等方法相結合,可用於分類、鏈路預測。近來,研究人員證明了HIN 嵌入在作者識別等方面的有效性。
圖 1 Network Embedding
HIN 異構性不僅包含豐富的信息,還有潛在的不兼容的語義。傳統的同構網絡嵌入不論其類型,均等的處理所有節點和邊,不會捕捉 HIN 的異質性。
如圖1,stan,musical,Ang Lee是不同類型的節點,因為musical和Ang Lee的embedding距離很遠,會導致stan無法同時和兩個embedding同時很近,因此需要學習兩個不同的度量空間,從而stan分別在兩個度量空間中與對應的node距離很近。
圖 2 異質網絡嵌入學習中的不兼容現象
為解決該問題,本文在計算相似度 s 時提出度量向量 μ
該度量向量μ是對不同類型的關系來進行embedding,g_{uv}是表示u,v之間的邊的embedding。通過定義該相似度函數,能夠獲得基於不同邊類型r的相似度
3. 嵌入 HINs 的邊緣表示(HEER)
3.1. 方法思想
通過邊緣表示和耦合度量的可用性,得到反應邊的存在和類型的損失函數,通過最小化損失,同時更新節點嵌入、邊緣嵌入和異構度量,保持輸入HIN中的異質性。對不同的不兼容程度建模,其中兩個邊緣類型越相似,對應的指標越相似。
- 綜合轉錄 HIN 中的嵌入信息
- 解決 HINs 中的語義不兼容
- 利用邊緣表示和異質矩陣
- 使用神經網絡學習節點和邊的嵌入表示
3.2. 框架結構
圖 3 HEER模型框架結構
HIN Embedding 定義
- 輸入一個異質網絡
- 通過F網絡學習出node embedding
- 之后通過g函數來學習出邊的embedding
- 一對節點間可能有多種類型的邊,g(u,v) 包含此類關系
- 通過type之間的相似度,也就是定義的相似度函數和原始連接關系共同作為ground truth
- 最后訓練出網絡參數,從而能夠學到網絡的嵌入模型
類型接近度
對於每對節點(u,v)的邊緣嵌入 guv
μr 為特定類型嵌入表示,兼容的邊類型共享相似的 μ
目標函數
( KL 測量元權重和從嵌入表示得到的相似度間的差異)
將(1)代入(2)考慮所有的邊類型,得到
4. Experiment
(邊緣剔除率為0.4時)
5. 總結
- HEER模型,能夠建立異構網絡中不同type之間的不兼容性,這是一種新的嘗試,將不兼容的性質提出並通過不同度量空間來表示。
- HEER模型能夠同時學習網絡中節點的node embedding和邊的edge embedding。
局限性
- 沒有考慮更復雜的網絡結構信息,而是僅僅通過相鄰節點的關系來確定embedding,更復雜的關系可以通過meta-path來找到,這也可能成為該論文未來的研究方向。
參考:
