論文信息

論文標題：Attributed Graph Clustering: A Deep Attentional Embedding Approach
論文作者：Chun Wang, Shirui Pan, Ruiqi Hu, Guodong Long, Jing Jiang, Chengqi Zhang
論文來源：2019, IJCAI
論文地址：download
論文代碼：download

1 Introduction

　　研究現狀：目前的圖表示學習方法都是兩階段方法，且融合結構和屬性信息的機制並不完美。

　　本文模型與傳統的 $\text{two-step}$ 方法的比較如 Figure 1 所示：

本文模型是將節點表示和聚類放在一個統一的框架中學習。
$\text{Two-step}$ 方法則是先學習 $\text{node embedding}$，然后進行聚類。

2 Method

　　總體框架：　　

　　組成部分：

- Graph Attentional Autoencoder
- Self-training Clustering

2.1 Graph Attentional Autoencoder

2.1.1 GAT encoder

　　首先：衡量 $\text{node}$ $i$ 的鄰居 $N_i$ 對於節點 $i$ 的影響，采用圖注意力機制：

　　　　$z_{i}^{l+1}=\sigma\left(\sum\limits _{j \in N_{i}} \alpha_{i j} W z_{j}^{l}\right)\quad\quad\quad(1)$

　　其中：$\alpha_{i j}$ is the attention coefficient that indicates the importance of neighbor node $j$ to node $i$ ；

　　對於注意力系數 $\alpha_{i j}$ 主要參考兩個方面：

1. 屬性值（attribute values）；
2. 拓撲距離（ topological distance ）；

　　Aspact 1：屬性值

　　注意力系數 $\alpha_{i j}$ 可以表示為由 $x_i$ 和 $x_j$ 拼接形成的單層前饋神經網絡：

　　　　$c_{i j}=\vec{a}^{T}\left[W x_{i} \| W x_{j}\right]\quad \quad \quad(2)$

　　其中：

- $\vec{a} \in R^{2 m^{\prime}}$ 是權重向量；

　　Aspact 2：拓撲距離

　　考慮節點高階鄰居信息（指 $ \text{t-order} $ 鄰居），得到 $\text{proximity matrix} $ ：

　　　　$M=\left(B+B^{2}+\cdots+B^{t}\right) / t\quad \quad\quad(3)$

　　其中：

- $B$ 是轉移矩陣（transition matrix），當 $e_{i j} \in E$ 有邊相連，那么 $B_{i j}=1 / d_{i}$ ，否則 $B_{i j}=0$ 。
- $M_{i j}$ 表示 $\text{node}$ $i$ 和 $\text{node}$ $j$ 的 $t$ 階內的拓撲相關性。如果 $\text{node}$ $i$ 和 $\text{node}$ $j$ 存在鄰居關系（$t$ 階之內），那么 $M_{i j}>0 $。

　　對節點 $i$ 的領域做標准化，采用 $\text{softmax function}$ ：

　　　　${\large \alpha_{i j}=\operatorname{softmax}_{j}\left(c_{i j}\right)=\frac{\exp \left(c_{i j}\right)}{\sum_{r \in N_{i}} \exp \left(c_{i r}\right)}} \quad \quad \quad(4)$

　　將 $\text{Eq.2}$ 中 $c_{ij}$ 及 $\text{Eq.3}$ 中的 $M_{ij}$ 帶入 $\text{Eq.4}$，那么 $\text{attention}$ 系數可以表示為：

　　　　${\large \alpha_{i j}=\frac{\exp \left(\delta M_{i j}\left(\vec{a}^{T}\left[W x_{i} \| W x_{j}\right]\right)\right)}{\sum_{r \in N_{i}} \exp \left(\delta M_{i r}\left(\vec{a}^{T}\left[W x_{i} \| W x_{r}\right]\right)\right)}} \quad\quad\quad(5)$

　　其中，激活函數 $\delta$ 采用 $LeakyReLU$ ；

　　本文堆疊 $2$ 個 $\text{graph attention layers}$ ：

　　　　$z_{i}^{(1)}=\sigma\left(\sum \limits _{j \in N_{i}} \alpha_{i j} W^{(0)} x_{j}\right)\quad \quad \quad (6)$

　　　　$z_{i}^{(2)}=\sigma\left(\sum\limits _{j \in N_{i}} \alpha_{i j} W^{(1)} z_{j}^{(1)}\right)\quad \quad\quad(7)$

　　通過上述圖注意力編碼器，得到最終的 $z_{i}=z_{i}^{(2)}$ 。

2.1.2 Inner product decoder

　　解碼器為 $\text{Inner product decoder}$ ，用於重構圖：

　　　　$\hat{A}_{i j}=\operatorname{sigmoid}\left(z_{i}{ }^{\top} z_{j}\right)\quad \quad \quad (8)$

　　其中：

- $\hat{A}$ 是重建后的圖結構矩陣；

2.1.3 Reconstruction loss

　　最小化 $A$ 和 $\hat{A}$ 的重構錯誤：

　　　　$L_{r}=\sum\limits _{i=1}^{n} \operatorname{loss}\left(A_{i, j}, \hat{A}_{i j}\right)\quad\quad \quad (9)$

2.2 Self-optimizing Embedding

　　除優化重構誤差外，還將隱表示輸入一個自優化聚類模塊，該模塊最小化以下目標：

　　　　$L_{c}=K L(P \| Q)=\sum\limits_{i} \sum\limits _{u} p_{i u} \log \frac{p_{i u}}{q_{i u}}\quad\quad\quad(10)$

　　其中：

- $q_{iu}$度量隱表示 $z_{i}$ 和聚類中心 $\mu_{u}$ 之間的相似性，本文通過 Student's t-distribution 度量；
- $p_{iu}$ 代表目標分布；

　　　　${\large q_{i u}=\frac{\left(1+\left\|z_{i}-\mu_{u}\right\|^{2}\right)^{-1}}{\sum\limits _{k}\left(1+\left\|z_{i}-\mu_{k}\right\|^{2}\right)^{-1}}} \quad\quad\quad（11）$

　　　　${\large p_{i u}=\frac{q_{i u}^{2} / \sum_{i} q_{i u}}{\sum_{k}\left(q_{i k}^{2} / \sum_{i} q_{i k}\right)}}\quad \quad\quad(12) $

　　聚類損失迫使當前分布 $Q$ 接近目標分布 $P$。

　　算法概述