論文信息
論文標題:Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning
論文作者:Jiwoong Park、Minsik Lee、H. Chang、Kyuewang Lee、J. Choi
論文來源:2019, ICCV
論文地址:download
論文代碼:download
1 Introduction
本文提出一個完全對稱的自編碼器,其中
-
- 解碼器 基於 Laplacian sharpening 設計 ;
- 編碼器 基於 Laplacian smoothing 設計。
2 Preliminaries
2.1 Basic notations on graphs
- Unnormalized graph Laplacian $\Delta$ is defined by $\Delta=D-A$
- Symmetric graph Laplacian $L$ is defined by $L=I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$
- Random walk graph Laplacian $L_{r w}$ is defined by $L_{r w}=I_{n}-D^{-1} A$
- $\Delta$, $L$ and $L_{r w}$ 均為半正定矩陣
2.2 Spectral convolution on graphs
可以發現 2.2 節的內容在《第三代GCN》已經將的很清楚了,所以下面不再詳細展開介紹。
譜卷積模型:
$g_{\theta} * x=U g_{\theta} U^{T} x\quad \quad \quad (1)$
其中:
-
- $U$ 是 symmetric graph Laplacian $L$ [ ps:$L=U \Lambda U^{T}$ ] 的特征向量矩陣,每一列代表着一個特征向量;
- $U^{T} x$ 是輸入信號 $x$ 的圖傅里葉變換;
- $g_{\theta}(\Lambda)$ 是 $L$ 的特征值函數,其中 $\Lambda$ 是 $L$ 的特征值組成的對角矩陣;
圖卷積帶來的問題:特征分解帶來的計算復雜。
解決辦法:使用 $K$ 階切比雪夫多項式 ($K^{t h}$ order Chebyshev polynomials) 代替譜卷積核 $g_{\theta}(\Lambda)$ 。
$g_{\theta} * x \approx U \sum\limits _{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{\Lambda}) U^{T} x=\sum\limits _{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{L}) x\quad \quad \quad (2)$
其中
-
- $T_{k}(\cdot)$ 代表切比雪夫多項式;
- $\theta^{\prime}$ 代表着切比雪夫多項式的系數;
- $\tilde{\Lambda}$ 即 $\frac{2}{\lambda_{\max }} \Lambda-I_{n}$,其中 $\lambda_{\max }$ 代表 $L$ 的最大特征值;
- $\tilde{L}=U \tilde{\Lambda} U^{T}=\frac{2}{\lambda_{\max }} L-I_{n} $.
在 GCN 中,切比雪夫多項式近似設置 $K=1$、$\lambda_{\max } \approx 2$ 、 $\theta=\theta_{0}^{\prime}= -\theta_{1}^{\prime}$。因此譜卷積可以簡化為:
$g_{\theta} * x \approx \theta\left(I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) x \quad \quad \quad (3)$
然而,由於 $I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 會造成網絡數值不穩定,這是因為 $I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的譜半徑為 $2$ ,所以我們考慮將切比雪夫多項式的譜半徑設置為 $1$。優化小技巧如下:
$I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \rightarrow \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} \quad \quad \quad (4)$
其中, $\tilde{A}=A+I_{n}$ , $\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}$。因為在節點上添加 selfloop 到親和矩陣不會影響相應圖拉普拉斯矩陣的譜半徑,這樣可以保證 $I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的數值穩定,且保持它的意義:
$\left(I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}1 & i=j \\A_{i j} / \sqrt{D_{i i} D_{j j}} & i \neq j\end{array}\right.\quad \quad \quad (5)$
$\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}1 /\left(D_{i i}+1\right) & i=j \\A_{i j} / \sqrt{\left(D_{i i}+1\right)\left(D_{j j}+1\right)} & i \neq j\end{array}\right.\quad \quad \quad (6)$
至此,GCN 前向傳播可以表示為:
$H^{(m+1)}=\xi\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right)\quad \quad \quad (7)$
其中:
-
- $H^{(m)}$ 代表着第 $m$ 層的 activation matrix ,$H^{(0)}$ 代表着節點的特征矩陣 $X $ ;
- $\xi(\cdot)$代表着非線性激活函數,通常是 $\operatorname{ReLU}(\cdot)=\max (0, \cdot) $ ;
- $\Theta^{(m)}$ 是可訓練的權重矩陣;
2.3 Laplacian smoothing
Li et al. 等人證明 GCN 是 Laplacian smoothing 的一種特殊形式。
Laplacian smoothing equation:
$x_{i}^{(m+1)}=(1-\gamma) x_{i}^{(m)}+\gamma \sum\limits_{j} \frac{\tilde{A}_{i j}}{\tilde{D}_{i i}} x_{j}^{(m)}\quad \quad \quad (8)$
其中:
-
- $\tilde{A}=A+I_{n}$ ;
- $\tilde{D}=D+I_{n}$ ;
- $\gamma (0<\gamma \leq 1)$ 是一個正則化參數,它控制自身與其鄰居之間的重要性;
重寫上述 equation 得:
$\begin{aligned}X^{(m+1)} &=(1-\gamma) X^{(m)}+\gamma \tilde{D}^{-1} \tilde{A} X^{(m)} \\&=X^{(m)}-\gamma\left(I_{n}-\tilde{D}^{-1} \tilde{A}\right) X^{(m)} \\&=X^{(m)}-\gamma \tilde{L}_{r w} X^{(m)}\end{aligned}\quad \quad \quad (9)$
其中 $\tilde{L}_{r w} $ 參考 Random walk normalized Laplacian 。
本文設置 $\gamma=1$ 並用 $\tilde{L}$ 代替 $\tilde{L}_{r w}$,然后 Eq. 9 轉化為:
$X^{(m+1)}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} X^{(m)}$
這個方程與 $\text{Eq.7}$ 中譜卷積的重新歸一化版本相同。
3 Method
GALA 模型的編碼器起到 Laplacian smoothing,而解碼器起到 Laplacian sharpening。
3.1 Laplacian sharpening
編碼器執行拉普拉斯平滑,使每個節點的潛在表示與其相鄰節點的潛在表示相似。
拉普拉斯銳化是一個使每個節點的重構特征遠離其相鄰節點的質心的過程,它加速了重構速度,並受重構成本的控制。
Laplacian sharpening equation:
$x_{i}^{(m+1)}=(1+\gamma) x_{i}^{(m)}-\gamma \sum\limits _{j} \frac{A_{i j}}{D_{i i}} x_{j}^{(m)}\quad \quad \quad (10)$
Eq.10 進一步化簡 :
$\begin{aligned}X^{(m+1)} &=(1+\gamma) X^{(m)}-\gamma D^{-1} A X^{(m)} \\&=X^{(m)}+\gamma\left(I_{n}-D^{-1} A\right) X^{(m)} \\&=X^{(m)}+\gamma L_{r w} X^{(m)}\end{aligned}\quad \quad \quad (11)$
設置 $\gamma=1$ 而且用 $\tilde{L}$ 代替 $\tilde{L}_{r w}$,然后 Eq. (10) 化簡轉化為:
$X^{(m+1)}=(2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}})X^{(m)}$
將 Laplacian sharpening 表達為切比雪夫多項式的形式,並設置參數:
-
- $K=1$
- $\lambda_{\max } \approx 2$
- $\theta=\frac{1}{2} \theta_{0}^{\prime}=\theta_{1}^{\prime}$
然后解碼器層可表達為:
$H^{(m+1)}=\xi\left(\left(2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) H^{(m)} \Theta^{(m)}\right)\quad \quad \quad (12)$
$2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的譜半徑為 3 , 同樣是數值不穩定的。
若 $\boldsymbol{A}=\left(a_{i j}\right)$ 是復數域上的 $\mathrm{n} $ 階方陣,又 $\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}$ 是 $A$ 的全部特征值,則
$\rho(\boldsymbol{A})= \underset{1 \leq i \leq n}{max} |\lambda_{i}|$
From previous articles,we know that
$D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的譜半徑范圍為 $[ -1,1]$
所以我們需要找一個數值穩定的 Laplacian sharpening 。
3.2 Numerically stable Laplacian sharpening
為尋找譜半徑為 $1$ 的拉普拉斯銳化的新表示。
A signed graph is denoted by $\Gamma=(\mathcal{V}, \mathcal{E}, \hat{A})$ which is induced from the unsigned graph $\mathcal{G}=(\mathcal{V}, \mathcal{E}, A)$ .
Each element in $\hat{A}$ has the same absolute value with $A$ , but its sign is changed into minus or keeps plus.
The degree matrix $\hat{D}$ can be defined as $\hat{D}_{i i}=\sum\limits _{j}\left|\hat{A}_{i j}\right|$ .
因此,我們可以構建
-
- unnormalized graph Laplacian $\hat{\Delta}=\hat{D}-\hat{A}$.
- symmetric graph Laplacian $\hat{L}=I_{n}-\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ of the signed graph.
$\hat{L}$ 的特征值范圍為 $[0,2]$,因此對於任意 $\hat{A}$ ,它的譜半徑 $\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ 是 $1$。
利用上述結論,替換 Eq.12:
$H^{(m+1)}=\xi\left(\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right)\quad \quad \quad (13)$
其中:
-
- $\hat{A}=2 I_{n}-A$
- $\hat{D}=2 I_{n}+D$
$\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ 計算方式如下:
$\left(\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}2 /\left(D_{i i}+2\right) & i=j \\-A_{i j} / \sqrt{\left(D_{i i}+2\right)\left(D_{j j}+2\right)} & i \neq j\end{array}\right.\quad \quad \quad (14)$
Eq.14 和 Eq.15 有同樣的意義:
$\left(2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}2 & i=j \\-A_{i j} / \sqrt{D_{i i} D_{j j}} & i \neq j\end{array}\right.\quad \quad \quad (15)$
這樣做的目的:
-
- 將譜半徑變成 $1$。
- $\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ 保留了和 $2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的性質。
總結,GALA 數值穩定的 decoder layer 可以表達為:
$H^{(m+1)}=\xi\left(\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right),\left(m=\frac{M}{2}, \ldots, M-1\right)\quad \quad \quad (16)$
其中
-
- $\hat{A}=2 I_{n}-A$
- $\hat{D}=2 I_{n}+D$
GALA 的 encoder layer 表達為:
$H^{(m+1)}=\xi\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right),\left(m=0, \ldots, \frac{M}{2}-1\right)\quad \quad \quad (17)$
其中
-
- $\tilde{A}=I_{n}+A$
- $\tilde{D}=I_{n}+D$
在 Table 1, 通過實驗證明了拉普拉斯平滑不適合在解碼器使用,同樣說明了 數值穩定的拉普拉斯銳化的優越性。
GALA 的重構損失:
$\min _{\bar{X}} \frac{1}{2}\|X-\bar{X}\|_{F}^{2}\quad \quad \quad (18)$
3.3. Subspace clustering cost for image clustering
對於圖像聚類任務,我們在所提出的方法中添加了子空間聚類元素。
$\underset{\bar{X}, H, A_{H}}{min} \frac{1}{2}\|X-\bar{X}\|_{F}^{2}+\frac{\lambda}{2}\left\|H-H A_{H}\right\|_{F}^{2}+\frac{\mu}{2}\left\|A_{H}\right\|_{F}^{2}\quad \quad \quad (19)$
其中
-
- $H \in \mathbb{R}^{k \times n}$ 代表編碼器的隱表示;
- $A_{H} \in \mathbb{R}^{n \times n}$ 表示親和矩陣,它是子空間聚類的新潛在變量,
Eq. 19 的第二項 針對子空間聚類的自我表達模型和 Eq. 19 的第三項用於正則化 $A_{H}$ 。
如果我們只考慮最小化 $A_{H}$,那么問題變為:
$\underset{A_{H}}{min} \frac{\lambda}{2}\left\|H-H A_{H}\right\|_{F}^{2}+\frac{\mu}{2}\left\|A_{H}\right\|_{F}^{2}\quad \quad \quad (20)$
我們很容易得到分析結果:
$A_{H}^{*}=(H^{T} H+\frac{\mu}{\lambda} I_{n})^{-1} H^{T} H $
通過使用這種解析解和奇異值分解,我們推導出計算效率高的子空間聚類成本函數,如下所示:
$\underset{\bar{X}, H}{min} \frac{1}{2}\|X-\bar{X}\|_{F}^{2}+\frac{\mu \lambda}{2} \operatorname{tr}\left(\left(\mu I_{k}+\lambda H H^{T}\right)^{-1} H H^{T}\right)\quad \quad \quad (21)$
4. Experiments
數據集
節點聚類
節點聚類結果如 Table 2:
圖像聚類
消融實驗
鏈接預測
我們在 Citeseer 數據集上提供了一些關於鏈接預測任務的結果。
對於鏈路預測任務,我們最小化了以下成本函數,將 GAE 的鏈路預測成本添加到重建成本中
$\underset{\bar{X}, H}{min} \frac{1}{2}\|X-\bar{X}\|_{F}^{2}+\gamma \mathbb{E}_{H}[\log p(\hat{A} \mid H)]$
其中
-
- $H$ 代表潛在表示;
- $\hat{A}=\operatorname{sigmoid}\left(H H^{T}\right)$ 是重構的親和矩陣;
- $\gamma$ 是正則化參數;
The results are shown in Table 7
可視化
5 Conclusions
提出了拉普拉斯銳化。
修改時間
2022-01-23 創建文章
2022-06-07 切換到中文版本