論文信息
論文標題:Graph Representation Learning via Graphical Mutual Information Maximization
論文作者:Zhen Peng、Wenbing Huang、Minnan Luo、Q. Zheng、Yu Rong、Tingyang Xu、Junzhou Huang
論文來源:WWW 2020
論文地址:download
論文代碼:download
1 Introduction
Deep Graph Infomax (DGI) ,通過最大化圖級別表示向量和隱藏表示互信息之間的互信息【全局和局部信息之間的互信息】,來區分 Positive graph 和 Negative graph 。其存在的問題是:獲取圖級別表示的 Readout 函數常常是單設的,但是 Readout 的單射性質會受到參數訓練方式的影響,這表明 Readout 函數在某些情況下會變成非單射。當 Readout 函數非單射時,圖表示中包含的輸入圖信息將隨着輸入圖的大小增大而減小【一對多造成】。
本文提出了一種直接的方法來考慮圖結構方面的 $\text{MI}$,而不使用任何 Readout 函數和 corruption function,作者通過比較編碼器的輸入(即由輸入鄰域組成的子圖)和輸出(即每個節點的隱藏表示),直接推導出 $\text{MI}$。[ 改進 ]
作者理論推導表明,直接導出的 $\text{MI}$ 可以分解為每個鄰居特征和隱藏向量之間的局部 $\text{MI}$ 的加權和。這樣,我們對輸入特征進行了分解,使 $\text{MI}$ 計算易於處理。此外,如果我們調整權值,這種形式的 $\text{MI}$ 可以很容易地滿足對稱性質。由於上述 $\text{MI}$ 主要是在節點特征級別上測量的,作者稱之為特征互信息(FMI)。
關於上述提到的 $\text{FMI}$ ,存在着兩個問題:
-
- 組合的權重仍然未知;
- 沒有考慮到拓撲結構;
為解決這兩個問題,作者定義了基於 $\text{FMI}$ 提出了 Graphical Mutual Information(GMI),GMI 將 $\text{FMI}$ 中的權重設置為表示空間中每個鄰居和目標節點之間的距離。為了保留拓撲信息,GMI 通過一個額外的互信息項進一步將這些權值與輸入的邊特征相關聯。
2 Graphical mutual information:definition and maximization
提出的改進
承接 Introduction 中提到的 [ 改進 ] ,編碼過程可以在節點級重寫。
作者將節點 $i$ 的 $\boldsymbol{X}_{i}$ 和 $\boldsymbol{A}_{i}$ 分別定義為其鄰居的特征矩陣和對應鄰接矩陣。特別地,當編碼器 $f$ 是 $l$ 層的 GNN 時, $\boldsymbol{X}_{i}$ 由 $v_{i}$ 的所有 $k \leq l$ $\text{hop}$ 鄰居組成,顯然還可以進一步在鄰接矩陣中添加自環,那么它則會包含節點 $i$ 本身信息。圖中節點編碼過程: $\boldsymbol{h}_{i}=f\left(\mathcal{G}_{i}\right)=f\left(\boldsymbol{X}_{i}, \boldsymbol{A}_{i}\right)$ 。
圖互信息定義的困難
根據 Deep InfoMax(DIM)的思想,應最大化每個節點表示 $\boldsymbol{h}_{i}$ 和 $\mathcal{G}_{i}$ 之間的 $\text{MI}$(即 $I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right)$ )。但並沒有一個較好的方法定義 $I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right)$ ,原因是:
-
- $\text{MI}$ 應該具有平移不變性,即:如果 $\mathcal{G}_{i}$ 和 $\mathcal{G}_{i}^{\prime}$ 同構,那么 $I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right)=I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}^{\prime}\right)$ 。
- 如果采用 MINE 方法進行 $\text{ML}$ 計算,那么 MINE 中的判別器只接受固定大小的輸入。但這對於 $\mathcal{G}_{i}$ 是不可行的,因為不同的 $\mathcal{G}_{i}$ 通常包含不同數量的鄰居節點,因此具有不同的大小。
2.1 Feature Mutual Information
將 $\boldsymbol{X}_{i}$ 的經驗概率分布表示為 $p\left(\boldsymbol{X}_{i}\right)$, $\boldsymbol{h}_{i} $ 的概率分布表示為 $p\left(\boldsymbol{h}_{i}\right)$ ,聯合分布用 $p\left(\boldsymbol{h}_{i}, \boldsymbol{X}_{i}\right) $ 表示。 根據信息論,$\boldsymbol{h}_{i} $ 和 $\boldsymbol{X}_{i}$ 之間的 $\text{MI}$ 可以定義為:
${\large I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=\int_{\mathcal{H}} \int_{\mathcal{X}} p\left(\boldsymbol{h}_{i}, \boldsymbol{X}_{i}\right) \log \frac{p\left(\boldsymbol{h}_{i}, \boldsymbol{X}_{i}\right)}{p\left(\boldsymbol{h}_{i}\right) p\left(\boldsymbol{X}_{i}\right)} d \boldsymbol{h}_{i} d \boldsymbol{X}_{i}}\quad\quad\quad(1) $
以下將根據互信息分解定理計算 $I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)$。
Theorem 1 (Mutual information decomposition). If the conditional probability $p\left(\boldsymbol{h}_{i} \mid \boldsymbol{X}_{i}\right)$ is multiplicative, the global mutual information $I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)$ defined in Eq. (1) can be decomposed as a weighted sum of local MIs, namely,
$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=\sum\limits _{j}^{i_{n}} w_{i j} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad\quad(2)$
其中:
-
- $x_{j}$ is the $j-th$ neighbor of node $i$
- $i_{n}$ is the number of all elements in $X_{i}$
- the weight $w_{i j}$ satisfies $\frac{1}{i_{n}} \leq w_{i j} \leq 1$ for each $j$
為了證明 Theorem 1 ,引入兩個 lemmas 和一個 definition。
Lemma 1. For any random variables $X$, $Y$, and $Z$, we have
$I(X, Y ; Z) \quad \geq \quad I(X ; Z)\qquad \qquad (3)$
Lemma 1 證明:
$\begin{array}{l}I(X, Y ; Z)-I(X ; Z)\\ =\iiint_{X Y Z} p(X, Y, Z) \log \frac{p(X, Y, Z)}{p(X, Y) p(Z)} d X d Y d Z-\iint_{X Z} p(X, Z) \log \frac{p(X, Z)}{p(X) p(Z)} d X d Z\\ =\iiint_{X Y Z} p(X, Y, Z) \log \frac{p(X, Y, Z)}{p(X, Y) p(Z)} d X d Y d Z-\iiint_{X Y Z} p(X, Y, Z) \log \frac{p(X, Z)}{p(X) p(Z)} d X d Y d Z\\ =\iiint_{XYZ} p(X, Y, Z) \log \frac{p(X, Y, Z)}{p(Y \mid X) p(X, Z)} d X d Y d Z\\ =\iiint_{XYZ} p(Y, Z \mid X) p(X) \log \frac{p(Y, Z \mid X)}{p(Y \mid X) p(Z \mid X)} d X d Y d Z\\ =I(Y ; Z \mid X) \geq 0 \end{array}$
因此,$I(X,Y;Z) \ge I(X;Z)$。
Definition 1. The conditional probability $p\left(h \mid X_{1}, \cdots, X_{n}\right)$ is called multiplicative if it can be written as a product
$p\left(h \mid X_{1}, \cdots, X_{n}\right)=r_{1}\left(h, X_{1}\right) \cdots r_{n}\left(h, X_{n}\right)\quad\quad\quad\quad(4)$
其中 $r_1, · · · ,r_n$ 是 appropriate functions 。
Lemma 2. If $p\left(h \mid X_{1}, \cdots, X_{n}\right)$ is multiplicative, then we have
$I(X ; Z)+I(Y ; Z) \geq I(X, Y ; Z)\quad\quad\quad(5)$
Theorem 1 證明:
根據 Lemma 1 ,對於任何一個 $j$ :
$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{i_{n}}\right) \geq I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad(6)$
有:
$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=\sum\limits \frac{1}{i_{n}} I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) \geq \sum \limits \frac{1}{i_{n}} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad(7)$
根據 Lemma 2 ,得到:
$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) \leq \sum\limits I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad(8)$
根據 $\text{Eq.7}$ 和 $\text{Eq.8}$ :
$\sum\limits \frac{1}{i_{n}} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right) \leq I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) \leq \sum\limits I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad \quad(9)$
因為 $I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right) \geq 0$ ,必須存在權重 $\frac{1}{i_{n}} \leq w_{i j} \leq 1 $。 當設置 $w_{i j}=I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) / \sum I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)$ 時,我們將實現 $\text{Eq.2}$,同時確保 $\frac{1}{i_{n}} \leq w_{i j} \leq 1$,進而證明了定理1。
此外,可以調整權值,以反映輸入圖的同構變換。例如,如果 $ \boldsymbol{X}_{i} $ 只包含節點 $ i $ 的 $1-h o p $ 鄰居,則將所有權重設置為相同, 將導致不同順序的輸入節點產生相同的 $\mathrm{MI}$。
2.2 Topology-Aware Mutual Information
受 Theorem 1 的啟發,試圖從圖的 拓撲 結構構造可訓練的權值 $w_{ij}$。
Definition 2 (Graphical mutuak mutual information). The MI between the hidden vector $\boldsymbol{h}_{i}$ and its support graph $\mathcal{G}_{i}=\left(\boldsymbol{X}_{i}, \boldsymbol{A}_{i}\right)$ is defined as
$\begin{array}{c} I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right):=\sum\limits _{j}^{i_{n}} w_{i j} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)+I\left(w_{i j} ; \boldsymbol{a}_{i j}\right), \\ \text { with } w_{i j}=\sigma\left(\boldsymbol{h}_{i}^{\mathrm{T}} \boldsymbol{h}_{j}\right) \end{array}\quad\quad \quad(10)$
其中 $\boldsymbol{x}_{j}$ 和 $i_{n}$ 的定義與 Theorem 1 相同,$\boldsymbol{a}_{i j}$ 是鄰接矩陣 $A$ 中的邊權值,$\sigma(\cdot)$ 是一個 $ \text{sigmoid}$ 函數
$Eq.10$ 中第一項的 $w_{i j}$ 衡量了一個局部 $\text{MI}$ 對全局 $\text{MI}$ 的貢獻,即 $w_{i j}= \sigma\left(\boldsymbol{h}_{i}^{T} \boldsymbol{h}_{j}\right)$。同時,$I\left(w_{i j} ; \boldsymbol{a}_{i j}\right. )$ 最大化 $w_{i j} $ 和輸入圖的邊權重 $\boldsymbol{a}_{i j}$ 之間的 $\text{MI}$ ,以強制 $w_{i j} $ 符合拓撲關系。
2.3 Maximization of GMI
本文為了有效性和效率,選用 JSD 估計器,因為 infoNCE 估計器對負面采樣策略敏感,因此可能成為固定可用內存的大規模數據集的瓶頸。相反,JSD 估計器對負抽樣策略的不敏感性及其在許多任務上的良好性能使其更適合我們的任務。
接着作者通過下式計算 Eq.10 中的第一項:
$I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)=-s p\left(-\mathcal{D}_{w}\left(\boldsymbol{h}_{i}, \boldsymbol{x}_{j}\right)\right)-\mathbb{E}_{\tilde{\mathbb{P}}}\left[\operatorname{sp}\left(\mathcal{D}_{w}\left(\boldsymbol{h}_{i}, \boldsymbol{x}_{j}^{\prime}\right)\right)\right]\quad\quad\quad(11)$
其中
-
- $\mathcal{D}_{w}: D \times D^{\prime} \rightarrow \mathbb{R}$ 是由參數為 $w$ 的神經網絡構建的判別器;
- $x^{\prime}{ }_{j}$ 是來自 $\tilde{\mathbb{P}}=\mathbb{P}$ 的負樣本;
- $s p(x)=\log \left(1+e^{x}\right)$,即soft-plus function;
本文通過計算交叉熵而不是使用 JSD 估計器使 $I\left(w_{i j} ; \boldsymbol{\alpha}_{i j}\right)$ 最大化:
$I\left(w_{i j} ; \boldsymbol{a}_{i j}\right)=\boldsymbol{a}_{i j} \log w_{i j}+\left(1-\boldsymbol{a}_{i j}\right) \log \left(1-w_{i j}\right)\quad\quad\quad(12)$
3 Experiments
數據集
節點分類
目標函數的有效性
修改歷史
2022-03-26 創建文章
2022-06-13 二次閱讀