標簽: 自監督、 圖神經
動機
-
首先, 由於很難改變
GCNs固有的淺層結構, 如何設計一種基於GCNs的一致高效的訓練算法來提高其在標簽節點較少的圖上的泛化性能? -
其次, 如何利用基於大量未標記數據的自監督學習方法的優勢, 來提高所提出的訓練算法的性能?
貢獻
- 我們首先探討了在標簽節點較少的圖上
GCNs的層效應的存在性, 揭示了GCNs需要更多的層來維持標簽率較低的性能 - 結合多階段訓練框架和深度聚類方法, 我們提出了一種有效的訓練算法, 稱為
M3S算法. 它在低標簽率的圖形上表現出最先進的性能. - 事實上,我們的
M3S訓練算法可以提供一個更通用的框架, 該框架利用自監督學習方法來改進多階段訓練框架, 從而在只有少量標記數據的學習任務上設計高效的算法.
思想
框架

對於一個原圖, 首先利用 GCN 進行訓練, 得到每一個節點的表示. 利用 DeepCluster 將沒有標簽的數據進行分成 \(K\) 類, 然后利用對齊策略將他們聚類的數據進行標簽, 然后將每個類中的置信最高的進行 self-checking, 通過的節點則加入原始數據, 然后重復知道所有的數據都有標簽.
算法
Multi-Stage Training Framework
原始的自訓練是將置信度最高的預測的節點標簽加入到虛擬節點中且只加入一次, 而多階段訓練算法執行 \(K\) 次, 在標簽的有限的圖上, 該算法重復添加置信度高的標簽數據, 並促進標簽信息的傳播, 與原始方法相比性能更好. 而多階段訓練框架的可信在於基於置信度的虛擬標簽選擇節點的准確性, 因此很自然的引入了能夠保證所選標簽數據的准確性的自檢機制.
DeepCluster
DeepCluster 是 2018 年提出的自監督的方法, 其主要是由 ConvNet F 產生的一組 embedding 作為輸入, 並基於幾何標准將其分組為 \(k\) 個不同的聚類, DeepCluster 共同學習一個 \(d \times k\)
質心矩陣 \(C\) 和每個數據點 \(n\) 的聚類分配 \(y_n\), 通過解決下列問題:
解決這個問題提供了一組最優賦值 \((y_n^*)_{n≤N}\) 和質心矩陣 \(C^*\). 這些賦值被用作偽標簽. 具體來說, DeepCluster 在將從 ConvNet 產生的嵌入向量聚類成偽標簽和通過預測這些偽標簽來更新 ConvNet 的參數之間交替. 對於圖中的節點分類任務, 表示過程也可以看作是圖嵌入 因此, 我們利用圖嵌入的內在特性, 在嵌入向量上執行 k-means, 根據嵌入距離將所有節點聚類成不同的類別. 接下來, 引入對齊機制, 將每個簇中的節點分類到嵌入空間上分類中最近的類. 最后, 利用獲得的偽標簽構建多階段自監督算法的對齊機制.
Aligning Mechanism
對齊機制目標是根據嵌入距離將聚類中的類別轉化為分類中的類別, 經過 k-means 后將未標記的數據進行聚類后得到聚類 \(l\) , 其計算如下:
其中 \(\mu_m\) 表示類 (有標記的數據) \(m\) 中的質心, \(v_l\) 表示類 \(l\) (未標記的數據)中的質心, \(c^{(l)}\) 表示在原始標記數據中與類的所有質心距離最近的對齊類. 通過對齊機制, 我們能夠將每個簇的節點分類到一個特定的類別, 然后根據它們的嵌入距離為所有未標記的節點構造偽標簽.
偽碼

實驗

節點分類任務, 在 Cora 上的分類准確率.
總結
在標簽少的圖上, 提出了多階段訓練算法框架, 將帶有虛擬標簽的自信數據加入到標簽集中, 擴大訓練集. 此外, 將深度聚類應用於遺傳神經網絡的圖嵌入過程, 並設計了一種新的對齊機制來構造自檢機制, 以改進多階段訓練框架.
