論文解讀（Geom-GCN）《Geom-GCN: Geometric Graph Convolutional Networks》

本文轉載自查看原文 2022-03-03 21:03 878 論文解讀

論文信息

論文標題：Geom-GCN: Geometric Graph Convolutional Networks
論文作者：Hongbin Pei, Bingzhen Wei, K. Chang, Yu Lei, Bo Yang
論文來源：2020, ICLR
論文地址：download
論文代碼：download

1 Intriduction

　　MPNN 存在的問題：即丟失了節點與其鄰居間的結構信息和無法捕獲節點之間的長距離依賴關系。

　　在每一層 MPNN 中，每個節點向其鄰域內的節點發送其特征表示，即一條“消息”；然后通過聚合從鄰域收到的所有“消息”來更新其特征表示。

　　MPNNs 的 Aggregator 存在的問題：

　　問題一：Aggregator 丟失了節點與其鄰居間的結構信息。如 GCN 單純考慮了一階鄰居的信息，並沒有考慮鄰居節點的不同，稍微好一點的工作有 GAT ，好在分配權重的觀點。對於該問題采用下圖做例子：

　　同構圖：同構圖是指圖中節點類型和關系類型（邊的類型）都僅有一種。
　　異構圖：與同構圖相反，異構圖指圖中節點類型或關系類型多於一種。

　　問題二：Agrgregator 缺乏捕獲遠距離依賴的能力。

　　可能的解決方法：使用深層的網絡。實際上不可行原因，一：遠距離節點無差別融合其近端節點的信息（相關和不相關的信息）。二：圖中的過平滑問題：即圖中節點的表示最終將趨於一樣。[ 理論上是同 label 的節點表示趨於一致，當然這也是因為其無法識別同構圖和異構圖，將不同類別的節點視為一類 ]

　　本文解決的思路：考慮構造一個好的潛在空間，將節點映射為連續空間的一個向量（graph embedding），在隱空間查找鄰居並進行聚合。

2 Geometric aggregation scheme

　　整體框架如 Fig. 1 所示：

　　Aggregation scheme 包括三個模塊：

- Node embedding (panel A1-A3)
- Structural neighborhood (panel B)
- Bi-level aggregation (panel C)

2.1. Node embedding

　　即上圖中 $ A1\longrightarrow A3$ 。

　　$ A1\longrightarrow A2$ 將原始圖數據映射到一個潛在空間（二維）上去，即通過映射函數 $f: v \rightarrow z_{v}$。

　　$ A2\longrightarrow A3$ 指圖中局部鄰域結構（或稱之為局部子圖），即后文所指的 $N_g(v)$。

2.2 Structural neighborhood

　　即上圖中 $ A3\longrightarrow B$ 。

　　$ A3\longrightarrow B$ 指圖中結構化鄰居（Structural neighborhood），即

　　　　$\mathcal{N}(v)=\left(\left\{N_{g}(v), N_{s}(v)\right\}, \tau\right)$。

　　其中，　　

　　直接鄰居 $N_{g}(v)=\{u \mid u \in V,(u, v) \in E\}$ 代表與 $v$ 相連的鄰居集合 [ 即鄰接矩陣中的鄰居 ]。

　　潛在空間鄰域 $N_{s}(v)=\left\{u \mid u \in V, d\left(\boldsymbol{z}_{u}, \boldsymbol{z}_{v}\right)<\rho\right\}$ 代表着與 $v$ 距離小於 $\rho$ 的鄰居集合，即 $N_{s}(v)$ 在一定程度上包括了遠距離依賴的相似鄰居。

　　注意，$\rho$ 的范圍從 $0$ 到 $N_{g}(v)$ 中所有節點之間的距離和的平均。

　　關系操作算子（relational operator）是一個在潛在空間中定義的函數。其輸入是 $v$ 和 $u$ 的有序位置對（ordered position pair） $\left(z_{v}, z_{u}\right) $ ，該算子用於表示 $v$ 和 $u$ 的幾何關系（理解為是否是鄰域關系）。具體如下所示：

　　　　$\tau:\left(\boldsymbol{z}_{v}, \boldsymbol{z}_{u}\right) \rightarrow r \in R$

　　其中，$r$ 是離散值，$R$ 是幾何關系的集合。對 $\tau$ 的一個要求是保證每個有序位置對有且只有一個確定的幾何關系，即生成的每個 $r$ 有且只有一個 [ 方便下文中 $(i,r)$ 進行索引 ]。

　　如上面的 Fig 1. B 所示，紅色的表示中心節點 $v$，藍色節點包括與 $v$ 直接相連的節點或者與 $v$ 距離小於 $\rho $ 的節點，圖中是一個 $3*3$ 的格子，每一個格子所在的節點表示與 $v$ 的一種關系。

2.3 Bi-level aggregation

　　即上圖中 $ C$ 。

　　關鍵點：構造虛擬節點（藍色、綠色空心節點），即 Fig 1. C 中的空心節點。

　　Low-level aggregation——通過聚合函數 $p$ 將相同鄰域中具有相同幾何關系的節點的隱藏特征聚合到虛擬節點：

　　　　$\boldsymbol{e}_{(i, r)}^{v, l+1}=p\left(\left\{\boldsymbol{h}_{u}^{l} \mid u \in N_{i}(v), \tau\left(\boldsymbol{z}_{v}, \boldsymbol{z}_{u}\right)=r\right\}\right), \forall i \in\{g, s\}, \forall r \in R \quad \text { (Low-level aggregation) }$

　　其中，$p$ 是具有平移不變性的函數，比如 $L_p$（通常 $p=1,2,\infty $）。

　　舉例：

- 綠色的虛擬節點表示 $N_{s}(v)$ （潛在空間鄰居）中節點與對應的 $r$ 通過排列不變性函數 $p$ 生成的，比如 $r_4$ 中的兩個節點屬於 $N_{s}(v)$ 中節點，並且對應一個 $r$。
- 藍色的虛擬節點表示 $N_{g}(v)$ (直接鄰居)中節點與對應的 $r$ 通過排列不變性函數 $p$ 生成的，比如 $r_1$ 中的一個節點屬於 $N_{g}(v)$ 中節點，並且對應一個 $r$。而 $r_9$ 中的節點不在 $N_{g}(v)$ 中，故不生成藍色虛擬節點。

　　High-level aggregation —— 虛擬節點的特征通過函數 $q$ 進一步聚合到中心節點：

　　　　$\boldsymbol{m}_{v}^{l+1}=\underset{i \in\{g, s\}, r \in R}{q}\left(\left(e_{(i, r)}^{v, l+1},(i, r)\right)\right)(\text{High-level aggregation})$

　　$q$ 可以考慮使用拼接（concatenation）來提取鄰居信息。

　　Non-linear transform——使用非線性變換 $ReLU$ 得到新的表示 $\boldsymbol{h}_{v}^{(l+1)}$ ：

　　　　$\boldsymbol{h}_{v}^{l+1}=\sigma\left(W_{l} \cdot \boldsymbol{m}_{v}^{l+1}\right) $

　　本文解決一個 Aggregation 存在的一個問題，無法使用類似 mean、max 解決同質性問題。

　　假設上述兩張圖的每個節點對應的表示均相同，那么使用 mean、max 無法識別兩張圖是否是一樣的（圖表示一樣）。

　　本文的解決方法是生成虛擬節點可以采用不同的聚合函數，即每個 $r$ 可以使用不同的聚合函數。

2.4 Comparisons to related work

　　上文 GCN 存在的問題，以及 MPNNs 的改進工作 GAT 。

3 Geom-GCN：An implementation of the scheme

　　主要包括上述的三個模塊：

- node embedding　　
- structural neighborhood　　
- aggregation function

3.1 Node embedding

　　獲得初始節點表示采用：

- Geom-GCN-I：Isomap　　
- Geom-GCN-P：Poincate　　
- Geom-GCN-S：struc2vec

3.2 structural neighborhood

　　對於 $N_{s}(v)$ 中的 $\rho$ 我們將其區間范圍設置為從 $0$ 直到 $\operatorname{Average}\left(N_{g}(v)\right)$

3.3 aggregation function

　　本文的幾何算子 $\tau$ 定義如 Table 1 所示：

　　Low-level aggregation $p$ 其實就是 GCN 中的平均操作。

　　　　${\large \boldsymbol{e}_{(i, r)}^{v, l+1}=\sum\limits _{u \in N_{i}(v)} \delta\left(\tau\left(\boldsymbol{z}_{v}, \boldsymbol{z}_{u}\right), r\right)(\operatorname{deg}(v) \operatorname{deg}(u))^{\frac{1}{2}} \boldsymbol{h}_{u}^{l}, \forall i \in\{g, s\}, \forall r \in R} $

　　其中：

　　　　$\delta(\cdot, \cdot)$ 是一個只允許包含有關系的節點 $r$ 到 $v$ 的克羅內克增量函數

　　High-level aggregation $q$ 本質上就是 concatenation 函數，具體如下：

　　　　${\large \boldsymbol{h}_{v}^{l+1}=\sigma\left(W_{l} \cdot \underset{i \in\{g, p\}}{||} \underset{r \in R}{||} \boldsymbol{e}_{(i, r)}^{v, l+1}\right)} $

4 Experiments

　　本文定義 $\alpha$ 作為 Gromov hyperbolicity 用來測量圖的雙曲率。$\alpha$ 越小，空間越雙曲，這表明圖所具有的層次模式越強。

　　同樣使用 $\beta$ 定義節點的同質性：

　　　　$\beta=\frac{1}{N} \sum\limits _{v \in V} \frac{\text { Number of } v \text { 's neighbors who have the same label as } v}{\text { Number of } v \text { 's neighbors }} .$

　　$\beta$ 值越大，說明就節點標簽而言，節點對於給定圖的同質性更強。

　　本文采用的數據庫如 Table 2 所示：

　　實驗結果如 Table 3 所示：

　　作者又進一步測試了兩個變種:

只用原始圖上鄰居，加上后綴-g. 如Geom-GCN-I-g
只用隱空間鄰居，加上后綴-s. 如Geom-GCN-I-s

　　結果見下圖：

　　可以看出：隱空間鄰居對 $\beta $ 較小的圖貢獻更大。

　　然后，作者測試了不同 embedding 方法在選取鄰居上對實驗結果的影響。

　　可以看出：這里並沒有一個通用的較好embedding方法。需要根據數據集來設置，如何自動的找到最合適的embedding方法是一個future work。

　　最后是時間復雜度分析。本文考慮了多種不同的關系，因此，Geom-GCN的時間復雜度是GCN的 $|2R|$ 倍。另外，和GAT的實際運行時間相差無幾，因為attention的計算通常很耗時。

　　可視化結果：

5 Conclusion and future work

　　我們解決了現有的信息傳遞神經網絡在圖上的兩個主要缺點——鑒別結構的損失和長期依賴關系。作為我們的關鍵見解，我們通過圖的嵌入將一個離散的圖連接到一個連續的幾何空間。也就是說，我們利用了卷積的原則：在一個有意義的空間上進行空間聚合——因此我們的方法從圖中提取或“恢復”嵌入空間中丟失的信息（區分結構和長期依賴關系）。我們提出了一個通用的幾何聚合方案，並用幾個特定的Geom-GCN實現實例化了它，我們的實驗驗證了它的明顯優勢。作為未來的工作，我們將探索選擇正確的嵌入方法的技術——不僅依賴於輸入圖，還依賴於目標應用程序。

修改歷史

2022-03-03 ：第一次閱讀

2022-06-05：第二次越讀

論文解讀目錄

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。