論文解讀(Geom-GCN)《Geom-GCN: Geometric Graph Convolutional Networks》


論文信息

論文標題:Geom-GCN: Geometric Graph Convolutional Networks
論文作者:Hongbin Pei, Bingzhen Wei, K. Chang, Yu Lei, Bo Yang
論文來源:2020, ICLR
論文地址:download 
論文代碼:download 

1 Intriduction

  MPNN 存在的問題:即 丟失了節點與其鄰居間的結構信息 和 無法捕獲節點之間的長距離依賴關系

  在每一層 MPNN 中,每個節點向其鄰域內的節點發送其特征表示,即一條“消息”;然后通過聚合從鄰域收到的所有“消息”來更新其特征表示。

  MPNNs 的 Aggregator 存在的問題:

  問題一:Aggregator 丟失了節點與其鄰居間的結構信息。如 GCN 單純考慮了 一階鄰居的信息,並沒有考慮鄰居節點的不同,稍微好一點的工作有 GAT ,好在分配權重的觀點。對於該問題采用下圖做例子:

    

  同構圖:同構圖是指圖中節點類型和關系類型(邊的類型)都僅有一種。
  異構圖:與同構圖相反,異構圖指圖中節點類型或關系類型多於一種。

  問題二:Agrgregator 缺乏捕獲遠距離依賴的能力。

  可能的解決方法:使用深層的網絡。實際上不可行原因,一:遠距離節點無差別融合其近端節點的信息(相關和不相關的信息)。二:圖中的過平滑問題:即圖中節點的表示最終將趨於一樣。[ 理論上是同 label 的節點表示趨於一致,當然這也是因為其無法識別同構圖和異構圖,將不同類別的節點視為一類 ]

  本文解決的思路:考慮構造一個好的潛在空間,將節點映射為連續空間的一個向量(graph embedding),在隱空間查找鄰居並進行聚合。

2 Geometric aggregation scheme

  整體框架如 Fig. 1 所示:

    

  Aggregation scheme 包括三個模塊:

    • Node embedding (panel A1-A3)
    • Structural neighborhood (panel B) 
    • Bi-level aggregation (panel C)

2.1. Node embedding

  即上圖中 $ A1\longrightarrow A3$ 。

  $ A1\longrightarrow A2$ 將原始圖數據映射到一個潛在空間(二維)上去,即通過映射函數 $f: v \rightarrow z_{v}$。

  $ A2\longrightarrow A3$ 指圖中局部鄰域結構(或稱之為局部子圖),即后文所指的 $N_g(v)$。

2.2 Structural neighborhood

  即上圖中 $ A3\longrightarrow B$ 。

  $ A3\longrightarrow B$  指圖中結構化鄰居(Structural neighborhood),即

    $\mathcal{N}(v)=\left(\left\{N_{g}(v), N_{s}(v)\right\}, \tau\right)$。

  其中,  

  直接鄰居 $N_{g}(v)=\{u \mid u \in V,(u, v) \in E\}$ 代表與 $v$ 相連的鄰居集合  [ 即鄰接矩陣中的鄰居 ]。

  潛在空間鄰域 $N_{s}(v)=\left\{u \mid u \in V, d\left(\boldsymbol{z}_{u}, \boldsymbol{z}_{v}\right)<\rho\right\}$ 代表着與 $v$ 距離小於 $\rho$ 的鄰居集合,即 $N_{s}(v)$ 在一定程度上包括了遠距離依賴的相似鄰居。

  注意,$\rho$ 的范圍從 $0$ 到 $N_{g}(v)$ 中所有節點之間的距離和的平均。

  關系操作算子(relational operator)是一個在潛在空間中定義的函數。其輸入是 $v$ 和 $u$ 的有序位置對(ordered position pair) $\left(z_{v}, z_{u}\right) $ ,該算子用於表示 $v$ 和 $u$ 的幾何關系(理解為是否是鄰域關系)。具體如下所示:

    $\tau:\left(\boldsymbol{z}_{v}, \boldsymbol{z}_{u}\right) \rightarrow r \in R$

  其中,$r$ 是離散值,$R$ 是幾何關系的集合。對 $\tau$ 的一個要求是保證每個有序位置對有且只有一個確定的幾何關系,即生成的每個 $r$ 有且只有一個 [ 方便下文中 $(i,r)$ 進行索引 ]。

  如上面的 Fig 1. B 所示,紅色的表示中心節點 $v$,藍色節點包括與 $v$ 直接相連的節點或者與 $v$ 距離小於 $\rho $ 的節點,圖中是一個 $3*3$ 的格子,每一個格子所在的節點表示與 $v$ 的一種關系。

2.3 Bi-level aggregation

  即上圖中 $ C$ 。

  關鍵點: 構造虛擬節點(藍色、綠色空心節點),即 Fig 1. C 中的 空心節點。

  Low-level aggregation——通過聚合函數 $p$ 將相同鄰域中具有相同幾何關系的節點的隱藏特征聚合到虛擬節點

    $\boldsymbol{e}_{(i, r)}^{v, l+1}=p\left(\left\{\boldsymbol{h}_{u}^{l} \mid u \in N_{i}(v), \tau\left(\boldsymbol{z}_{v}, \boldsymbol{z}_{u}\right)=r\right\}\right), \forall i \in\{g, s\}, \forall r \in R \quad \text { (Low-level aggregation) }$

  其中,$p$ 是具有平移不變性的函數,比如 $L_p$(通常 $p=1,2,\infty $)。

  舉例:

    • 綠色的虛擬節點表示  $N_{s}(v)$ (潛在空間鄰居)中節點與對應的 $r$ 通過排列不變性函數 $p$ 生成的,比如 $r_4$ 中的兩個節點屬於 $N_{s}(v)$  中節點,並且對應一個 $r$。
    • 藍色的虛擬節點表示  $N_{g}(v)$ (直接鄰居)中節點與對應的 $r$ 通過排列不變性函數 $p$ 生成的,比如 $r_1$ 中的一個節點屬於 $N_{g}(v)$  中節點,並且對應一個 $r$。而 $r_9$ 中的節點不在 $N_{g}(v)$ 中,故不生成藍色虛擬節點。

  High-level aggregation —— 虛擬節點的特征通過函數 $q$ 進一步聚合到中心節點

    $\boldsymbol{m}_{v}^{l+1}=\underset{i \in\{g, s\}, r \in R}{q}\left(\left(e_{(i, r)}^{v, l+1},(i, r)\right)\right)(\text{High-level aggregation})$

  $q$ 可以考慮使用 拼接(concatenation) 來提取鄰居信息。

  Non-linear transform——使用非線性變換 $ReLU$ 得到新的表示 $\boldsymbol{h}_{v}^{(l+1)}$

    $\boldsymbol{h}_{v}^{l+1}=\sigma\left(W_{l} \cdot \boldsymbol{m}_{v}^{l+1}\right) $

  本文解決一個 Aggregation 存在的一個問題,無法使用類似 mean、max 解決同質性問題。

  

  假設上述兩張圖的每個節點對應的表示均相同,那么使用 mean、max 無法識別兩張圖是否是一樣的(圖表示一樣)。

  本文的解決方法是生成虛擬節點可以采用不同的聚合函數,即 每個 $r$ 可以使用不同的聚合函數。 

2.4 Comparisons to related work

  上文 GCN 存在的問題,以及 MPNNs 的改進工作 GAT 。

3 Geom-GCN:An implementation of the scheme

  主要包括上述的三個模塊: 

    • node embedding  
    • structural neighborhood  
    • aggregation function  

3.1 Node embedding

  獲得初始節點表示采用:

    • Geom-GCN-I:Isomap  
    • Geom-GCN-P:Poincate  
    • Geom-GCN-S:struc2vec  

3.2 structural neighborhood

  對於 $N_{s}(v)$ 中的  $\rho$ 我們將其區間范圍設置為從  $0$ 直到  $\operatorname{Average}\left(N_{g}(v)\right)$

3.3 aggregation function

  本文的幾何算子 $\tau$ 定義如 Table 1 所示:

    

  Low-level aggregation $p$ 其實就是 GCN 中的平均操作。

    ${\large \boldsymbol{e}_{(i, r)}^{v, l+1}=\sum\limits _{u \in N_{i}(v)} \delta\left(\tau\left(\boldsymbol{z}_{v}, \boldsymbol{z}_{u}\right), r\right)(\operatorname{deg}(v) \operatorname{deg}(u))^{\frac{1}{2}} \boldsymbol{h}_{u}^{l}, \forall i \in\{g, s\}, \forall r \in R} $

  其中:

    $\delta(\cdot, \cdot)$ 是一個只允許包含有關系的節點 $r$ 到 $v$ 的克羅內克增量函數

  High-level aggregation $q$ 本質上就是 concatenation 函數,具體如下:

    ${\large \boldsymbol{h}_{v}^{l+1}=\sigma\left(W_{l} \cdot  \underset{i \in\{g, p\}}{||}   \underset{r \in R}{||}  \boldsymbol{e}_{(i, r)}^{v, l+1}\right)} $

4 Experiments

  本文定義 $\alpha$ 作為 Gromov hyperbolicity 用來測量圖的雙曲率。$\alpha$ 越小,空間越雙曲,這表明圖所具有的層次模式越強。

  同樣使用 $\beta$ 定義節點的同質性:

    $\beta=\frac{1}{N} \sum\limits _{v \in V} \frac{\text { Number of } v \text { 's neighbors who have the same label as } v}{\text { Number of } v \text { 's neighbors }} .$

  $\beta$  值越大,說明就節點標簽而言,節點對於給定圖的同質性更強。

  本文采用的數據庫如 Table 2 所示:

    

  實驗結果如 Table 3 所示:

    

  作者又進一步測試了兩個變種:

    • 只用原始圖上鄰居,加上后綴-g. 如Geom-GCN-I-g
    • 只用隱空間鄰居,加上后綴-s. 如Geom-GCN-I-s

  結果見下圖:

    

  可以看出:隱空間鄰居對 $\beta $ 較小的圖貢獻更大。

  然后,作者測試了不同 embedding 方法在選取鄰居上對實驗結果的影響。

    

  可以看出:這里並沒有一個通用的較好embedding方法。需要根據數據集來設置,如何自動的找到最合適的embedding方法是一個future work。

  最后是時間復雜度分析。本文考慮了多種不同的關系,因此,Geom-GCN的時間復雜度是GCN的 $|2R|$ 倍。另外,和GAT的實際運行時間相差無幾,因為attention的計算通常很耗時。

    

  可視化結果:

    

5 Conclusion and future work

  我們解決了現有的信息傳遞神經網絡在圖上的兩個主要缺點——鑒別結構的損失和長期依賴關系。作為我們的關鍵見解,我們通過圖的嵌入將一個離散的圖連接到一個連續的幾何空間。也就是說,我們利用了卷積的原則:在一個有意義的空間上進行空間聚合——因此我們的方法從圖中提取或“恢復”嵌入空間中丟失的信息(區分結構和長期依賴關系)。我們提出了一個通用的幾何聚合方案,並用幾個特定的Geom-GCN實現實例化了它,我們的實驗驗證了它的明顯優勢。作為未來的工作,我們將探索選擇正確的嵌入方法的技術——不僅依賴於輸入圖,還依賴於目標應用程序。

 

修改歷史

2022-03-03 :第一次閱讀

2022-06-05:第二次越讀

 

論文解讀目錄


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM