論文信息
論文標題:Large-Scale Representation Learning on Graphs via Bootstrapping
論文作者:Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, Rémi Munos, Petar Veličković, Michal Valko
論文來源:2021, ICLR
論文地址:download
論文代碼:download
早先版本名字叫《Bootstrapped Representation Learning on Graphs》
1 Introduction
研究目的:對比學習中不適用負樣本。
本文貢獻:
-
- 對圖比學習不使用負樣本
2 Method
2.1 Framework
上面是 online network,下面是 target network 。
步驟:
-
- 步驟一:分別應用隨機圖增強函數 $\mathcal{A}_{1}$ 和 $\mathcal{A}_{2}$,產生 $G$ 的兩個視圖:$\mathbf{G}_{1}= \left(\widetilde{\mathbf{X}}_{1}, \widetilde{\mathbf{A}}_{1}\right)$ 和 $\mathbf{G}_{2}=\left(\widetilde{\mathbf{X}}_{2}, \widetilde{\mathbf{A}}_{2}\right) $;
- 步驟二:在線編碼器從其增廣圖中生成一個在線表示 $\widetilde{\mathbf{H}}_{1}:=\mathcal{E}_{\theta}\left(\widetilde{\mathbf{X}}_{1}, \widetilde{\mathbf{A}}_{1}\right)$;目標編碼器從其增廣圖生成目標表示 $\widetilde{\mathbf{H}}_{2}:=\mathcal{E}_{\phi}\left(\widetilde{\mathbf{X}}_{2}, \widetilde{\mathbf{A}}_{2}\right) $;
- 步驟三:在線表示被輸入到一個預測器 $p_{\theta}$ 中,該預測器 $p_{\theta}$ 輸出對目標表示的預測 $\widetilde{\mathbf{Z}}_{1}:= p_{\theta}\left(\widetilde{\mathbf{H}}_{1}, \widetilde{\mathbf{A}}_{1}\right)$,除非另有說明,預測器在節點級別工作,不考慮圖信息(僅在 $\widetilde{\mathbf{H}}_{1}$ 上操作,而不是 $\widetilde{\mathbf{A}}_{1}$)。
2.2 BGRL Update Param
更新 $\theta$
在線參數 $\theta$,通過余弦相似度的梯度,使預測的目標表示 $\mathbf{Z}_{1}$ 更接近每個節點的真實目標表示 $\widetilde{\mathbf{H}}_{2}$。
$\ell(\theta, \phi)=-\frac{2}{N} \sum\limits _{i=0}^{N-1} {\large \frac{\widetilde{\mathbf{Z}}_{(1, i)} \widetilde{\mathbf{H}}_{(2, i)}^{\top}}{\left\|\widetilde{\mathbf{Z}}_{(1, i)}\right\|\left\|\widetilde{\mathbf{H}}_{(2, i)}\right\|}} \quad\quad\quad(1)$
$\theta$ 的更新公式:
$\theta \leftarrow \operatorname{optimize}\left(\theta, \eta, \partial_{\theta} \ell(\theta, \phi)\right)\quad\quad\quad(2)$
其中 $ \eta $ 是學習速率,最終更新僅從目標對 $\theta$ 的梯度計算,使用優化方法如 SGD 或 Adam 等方法。在實踐中,
我們對稱了訓練,也通過使用第二個視圖的在線表示來預測第一個視圖的目標表示。
更新 $\phi$
目標參數 $\phi$ 被更新為在線參數 $\theta$ 的指數移動平均數,即:
$\phi \leftarrow \tau \phi+(1-\tau) \theta\quad\quad\quad(3)$
其中 $\tau$ 是控制 $\phi$ 與 $ \theta$ 的距離的衰減速率。
只有在線參數被更新用來減少這種損失,而目標參數遵循不同的目標函數。根據經驗,與BYOL類似,BGRL不會崩潰為平凡解,而 $\ell(\theta, \phi)$ 也不收斂於 $0$ 。
3 Experiment
數據集
數據集划分:
-
- WikiCS: 20 canonical train/valid/test splits
- Amazon Computers, Amazon Photos——train/validation/test—10/10/80%
- Coauthor CS, Coauthor Physics——train/validation/test—10/10/80%
直推式學習——基線實驗
圖編碼器采用 $\text{GCN}$ Encoder 。
大圖上的直推式學習——基線實驗
結果:
歸納式學習——基線實驗
編碼器采用 GraphSAGE-GCN (平均池化)和 GAT 。
結果:
4 Conclusion
使用了一種簡單的不需要負樣本的對比學習框架。
修改歷史
2021-04-14 創建文章
2022-06-14 精讀