論文閱讀筆記：斯坦福大學SNAP團隊《圖信息瓶頸》—— Graph Information Bottleneck

本文轉載自查看原文 2021-01-26 19:39 794 論文筆記

論文：Tailin Wu, Hongyu Ren, Pan Li, Jure Leskovec. Graph Information Bottleneck. In NIPS 2020.

概要：圖神經網絡（GNNs）是一種融合網絡結構和節點特征信息的表示學習方法，容易受到對抗性攻擊。本文提出了一個信息論原則——圖信息瓶頸（Graph Information Bottleneck，GIB），它能夠優化圖數據表示的表達能力和魯棒性之間的平衡。GIB繼承了一般信息瓶頸（Graph Information Bottleneck，IB）的思想，通過最大化表示與目標之間的互信息，同時約束表示與輸入數據之間的互信息，來學習給定任務的最小充分表示。GIB與一般IB不同之處在於其對結構信息和特征信息進行了正則化處理。本文給出了兩種結構正則化的抽樣算法，並用兩種新模型GIB-Cat和GIB-Bern對GIB原理進行了舉例說明，並通過評估GIB-Cat和GIB-Bern的抗攻擊能力來說明其優點。實驗證明了我們提出的模型比最新的圖防御模型更健壯。基於GIB的模型在對抗性擾動圖結構和節點特征的情況下，與基准方法相比達到了31%的提升。

一般深度學習中的信息瓶頸

給定輸入數據$\mathcal{D}$和任務目標$Y$，根據概率$\mathbb{P}(Z \mid \mathcal{D})$編碼網絡表示為$Z$，則信息瓶頸的目標函數為：

$$\min _{\mathbb{P}(Z \mid \mathcal{D})} \operatorname{IB}_{\beta}(\mathcal{D}, Y ; Z):=[-I(Y ; Z)+\beta I(\mathcal{D} ; Z)]$$

圖1 信息瓶頸示意圖

如圖1所示，信息瓶頸准則激勵表示$Z$盡可能捕獲對任務目標$Y$有益的信息（sufficient的，圖1中由方格陰影表示），同時盡可能去除輸入$\mathcal{D}$中與任務目標無關的部分（minimal）。這種類似“提純”的做法即“瓶頸”的含義，它使得訓練的模型能夠天然地避免過擬合並且對對抗性攻擊變得更加魯棒。

由於互信息的計算十分困難，在實際應用中不可能以上述公式為目標函數進行優化，常見的做法是計算互信息的上/下界作為目標函數進行優化。

圖信息瓶頸（GIB）

圖任務的輸入數據包括節點屬性和圖結構，即$\mathcal{D}=(A, X)$。GIB繼承了IB的基本思想，即同時從節點屬性和圖結構中捕獲最小充分信息，如圖2所示。但是也面臨着兩大挑戰：（1）一般的基於IB的模型都會假設樣本是獨立同分布的，而獨立同分布的假設對圖中的節點不成立；（2）圖結構信息對於圖任務來說是不可或缺的，但是這種信息是離散的，故而難以優化。

圖2 圖信息瓶頸示意圖

為了解決節點屬性不是獨立同分布的問題，本文引入了“局部依賴”假設：給定節點$v$一定距離內的鄰居信息，圖的其他部分和節點$v$是獨立的。這一假設被用於約束$\mathbb{P}(Z \mid \mathcal{D})$的解空間。

圖3 GIB的局部依賴假設

對於圖結構信息的利用，本文給出了一種馬爾可夫依賴（如圖3(a)所示）：每個節點表示基於鄰居結構$Z_A^{(l)}$迭代地調整，而$Z_A^{(l)}$是由上次迭代產生的表示$Z_X^{(l-1)}$和原始圖結構$A$迭代融合產生的。（這里即通常討論GNN時所謂的消息傳播機制在本文中的體現）$Z_A^{(l)}$和$Z_X^{(l)}$的計算都應用了上述的局部依賴假設，即只考慮目標節點$\mathcal{T}$-跳內的節點。如圖3(b)所示，$\mathcal{T}=2$時，認為黑色節點和白色節點在$l+1$次迭代時的表示$Z_X^{(l)}$是獨立的，但是在$l+2$次迭代時二者之間可能會形成相關性。最終將第$L$次迭代的表示$Z_X^{(l)}$用於目標任務，則GIB的目標函數可寫為：

$$\min _{\mathbb{P}\left(Z_{X}^{(L)} \mid \mathcal{D}\right) \in \Omega} \operatorname{GIB}_{\beta}\left(\mathcal{D}, Y ; Z_{X}^{(L)}\right) \triangleq\left[-I\left(Y ; Z_{X}^{(L)}\right)+\beta I\left(\mathcal{D} ; Z_{X}^{(L)}\right)\right]$$

這樣只需優化兩類分布：$\mathbb{P}\left(Z_{X}^{(l)} \mid Z_{X}^{(l-1)}, Z_{A}^{(l)}\right)$ 和$\mathbb{P}\left(Z_{A}^{(l)} \mid Z_{X}^{(l-1)}, A\right)$，$l \in[L]$。

GIB的變分邊界（推導見原文附加材料）

（1）$I\left(Y ; Z_{X}^{(L)}\right)$的上界：對任意$v$的分布$\mathbb{Q}_{1}\left(Y_{v} \mid Z_{X, v}^{(L)}\right)$和$\mathbb{Q}_{2}\left(Y\right)$，下式成立：

$$I\left(Y ; Z_{X}^{(L)}\right) \geq 1+\mathbb{E}\left[\log \frac{\prod_{v \in V} \mathbb{Q}_{1}\left(Y_{v} \mid Z_{X, v}^{(L)}\right)}{\mathbb{Q}_{2}(Y)}\right]+\mathbb{E}_{\mathbb{P}(Y) \mathbb{P}\left(Z_{X}^{(L)}\right)}\left[\frac{\prod_{v \in V} \mathbb{Q}_{1}\left(Y_{v} \mid Z_{X, v}^{(L)}\right)}{\mathbb{Q}_{2}(Y)}\right]$$

（1）$I\left(\mathcal{D} ; Z_{X}^{(L)}\right)$的下界：選兩組索引$S_{X}, S_{A} \subset[L]$，由馬爾可夫依賴可知$\mathcal{D} \perp Z_{X}^{(L)} \mid\left\{Z_{X}^{(l)}\right\}_{l \in S_{X}} \cup\left\{Z_{A}^{(l)}\right\}_{l \in S_{A}}$，且對任意分布$\mathbb{Q}\left(Z_{X}^{(l)}\right), l \in S_{X},$ 和$\mathbb{Q}\left(Z_{A}^{(l)}\right), l \in S_{A}$有下式成立：

$$I\left(\mathcal{D} ; Z_{X}^{(L)}\right) \leq I\left(\mathcal{D} ;\left\{Z_{X}^{(l)}\right\}_{l \in S_{X}} \cup\left\{Z_{A}^{(l)}\right\}_{l \in S_{A}}\right) \leq \sum_{l \in S_{A}} \mathrm{AIB}^{(l)}+\sum_{l \in S_{X}} \mathrm{XIB}^{(l)},$$

$$\mathrm{AIB}^{(l)}=\mathbb{E}\left[\log \frac{\mathbb{P}\left(Z_{A}^{(l)} \mid A, Z_{X}^{(l-1)}\right)}{\mathbb{Q}\left(Z_{A}^{(l)}\right)}\right], \mathrm{XIB}^{(l)}=\mathbb{E}\left[\log \frac{\mathbb{P}\left(Z_{X}^{(l)} \mid Z_{X}^{(l-1)}, Z_{A}^{(l)}\right)}{\mathbb{Q}\left(Z_{X}^{(l)}\right)}\right]$$

注意$S_{X}$不能為空集，且若$S_{X}$中最大索引為$l$則$S_{A}$應包含$[l+1,L]$中所有索引。

GIB的使用示例

本文給出了兩個利用GIB的示例：GIB-Cat和GIB-Bern。這兩個方法都滿足Algorithm 1所示的框架。第三步的鄰居采樣應用了圖注意力機制網絡（GAT）來計算目標節點鄰居（由計算的多跳鄰居）的注意力。GIB-Cat將注意力值作為分類分布的參數從多跳鄰居中采樣k個節點構成$Z_{A,v}^{(l)}$（見Algorithm 2），而GIB-Bern則是將注意力值（softmax替換為sigmoid）作為對鄰居分別獨立采樣的伯努利分布的參數（見Algorithm 3）。第三步使用了Gumbel-softmax的重參數化技巧。

優化時使用變分邊界代替互信息目標函數。對於計算AIB，需要確定$Z_A \sim \mathbb{Q}\left(Z_{A}\right)$。GIB-Cat假設$ Z_{A, v}=\cup_{t=1}^{\mathcal{T}}\left\{u \in V_{v t} \mid u \stackrel{\text { iid }}{\sim} \operatorname{Cat}\left(\frac{1}{\left|V_{v t}\right|}\right)\right\}$, 對於不同的$u$和$v$，$Z_{A,u}$和$Z_{A,v}$獨立；GIB-Bern假設$Z_{A, v}=\cup_{t=1}^{\mathcal{T}}\left\{u \in V_{v t} \mid u \stackrel{\text { iid }}{\sim}\right.$ Bernoulli $\left.(\alpha)\right\}$，$\alpha$為超參。則AIB的經驗估計為：

$$\widehat{\mathrm{AIB}}^{(l)}=\mathbb{E}_{\mathbb{P}\left(Z_{A}^{(l)} \mid A, Z_{X}^{(l-1)}\right)}\left[\log \frac{\mathbb{P}\left(Z_{A}^{(l)} \mid A, Z_{X}^{(l-1)}\right)}{\mathbb{Q}\left(Z_{A}^{(l)}\right)}\right]$$

對於計算XIB，需要確定$Z_X \sim \mathbb{Q}\left(Z_{X}\right)$。假設$Z_{X, v} \sim \sum_{i=1}^{m} w_{i} \operatorname{Gaussian}\left(\mu_{0, i}, \sigma_{0, i}^{2}\right)$，其中的參數可學習。則XIB的估計為：

$$\widehat{\mathrm{XIB}}^{(l)}=\log \frac{\mathbb{P}\left(Z_{X}^{(l)} \mid Z_{X}^{(l-1)}, Z_{A}^{(l)}\right)}{\mathbb{Q}\left(Z_{X}^{(l)}\right)}=\sum_{v \in V}\left[\log \Phi\left(Z_{X, v}^{(l)} ; \mu_{v}, \sigma_{v}^{2}\right)-\log \left(\sum_{i=1}^{m} w_{i} \Phi\left(Z_{X, v}^{(l)} ; \mu_{0, i}, \sigma_{0, i}^{2}\right)\right)\right]$$

對目標函數，使用以下替換規則：

$$I\left(\mathcal{D} ; Z_{X}^{(L)}\right) \rightarrow \sum_{l \in S_{A}} \widehat{\mathrm{AIB}}^{(l)}+\sum_{l \in S_{X}} \widehat{\mathrm{XIB}}^{(l)}$$

$$I\left(Y ; Z_{X}^{(L)}\right) \rightarrow-\sum_{v \in V} \operatorname{Cross-Entropy}\left(Z_{X, v}^{(L)} W_{\text {out }} ; Y_{v}\right)$$

實驗

（1）魯棒性驗證：使用Nettack的設置，兩種測試模式：模型訓練后攻擊（Evasive）和模型訓練前攻擊（Poisoning）。攻擊方式：節點屬性部分置反，增加或刪除邊。使用Transductive的訓練方式。見表1.

Poisoning模式下GIB模型在Citeseer效果較差可能是因為該數據集大多數節點度都很小。

（2）消融實驗：

比較GIB目標函數不同部分對結果的影響。見表2.

（3）僅對節點屬性攻擊：

驗證IB對屬性的影響。見表3。

思考

作者在文中留下的問題包括：GIB是否有更好的實踐方法，尤其是在捕獲離散的結構信息方面？做全局的聚合時，GIB能否突破局部依賴假設的限制？GIB能否用於鏈路預測或圖分類等其他圖任務？

我的問題：對於無屬性圖，GIB該如何定義？對於面向結構模式的任務，GIB是否有效？

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 斯坦福大學機器學習筆記及代碼（一）斯坦福大學sql練習（基礎篇）斯坦福大學CS231n簡要筆記和課后作業 LR 算法總結--斯坦福大學機器學習公開課學習筆記斯坦福大學自然語言處理第一課——引言（Introduction） Pintos-斯坦福大學操作系統Project詳解-Project1 斯坦福大學機器學習，EM算法求解高斯混合模型斯坦福大學cs231n作業參考（中文版）斯坦福大學CS224d課程目錄《斯坦福大學：編程范式》第一節：常見的幾種范式