GNN 相關資料記錄;GCN 與 graph embedding 相關調研;社區發現算法相關;異構信息網絡相關;


最近做了一些和gnn相關的工作,經常聽到GCN 和 embedding 相關技術,感覺很是困惑,所以寫下此博客,對相關知識進行索引和記錄:

參考鏈接:

閱讀總結:

  • 傳統方法:手工特征-分類器-輸出;
  • 深度學習:深度神經網絡-輸出;
  • 深度學習減少了手工提取特征或規則的步驟,從原始數據中自動學習特征這種學習方式稱為端到端的學習(end-to-end)
  • 歐幾里得空間,現實生活中不具備這種空間;
  • 發射,接收,變換;
  • 圖卷積神經網絡具有卷積神經網絡的以下性質:
    • 局部參數共享,算子是適用於每個節點,處處共享;
    • 感受域正比於層數,最開始的時候,每個節點包含了直接鄰居的信息,再計算第二層時,就能把鄰居的鄰居的信息包含進來;這樣參與運算的信息就更多更充分。層數越多,感受域就更廣,參與運算的信息就更多;
  • GCN 模型具備深度學習的三種性質:
    • 層級結構(特征一層一層抽取,一層比一層更抽象,更高級);
    • 非線性變換(增加模型的表達能力)
    • 端到端的訓練(不需要再去定義任何規則,只需要給圖的節點一個標記,讓模型自己學習,融合特征信息和結構信息。)
  • GCN 的四個特征:
    • GCN 是卷積神經網絡再graph domain 上的自然推廣;
    • 它能夠同時對節點特征信息與結構信息進行端到端的學習,是目前對圖數據學習任務的最佳選擇;
    • 圖卷積適用性較廣,適用於任意拓撲結構的節點與圖;
    • 在節點分類與邊預測等任務上,在公開數據集上效果要遠遠優於其他方法;
  • 圖數據的優勢:
    • 給定一個節點,順着其邊的信息,能快速找到它的鄰居節點;
    • 圖的傳播性強,鄰居的鄰居也和自己關系緊密;相互之間聯系緊密的節點可以構成一個子圖或者子團;
    • 一般在圖中尋找子團的任務為社群檢測(Community Detection)或者叫作高密子圖挖掘(Dense Subgraph Mining);
  • 圖傳播算法的一般范式:經驗假設-無參量化-更新函數f;
  • pagerank算法;
  • HITS 引入 Authority 和 hub值來 進行指導更新,推導出節點權重,然后使用Authority 返回給用戶。hub 作為中間指標,來指導authority值的精確計算;
  • 如果研究的數據有大量的標記集,可以讓圖卷積等基於learning 的方法去進行監督學習;
  • 社區檢測(Community Detection)和 高密子圖挖掘(Dense Subgraph Mining);
  • 我們在進行社區檢測的時候,節點都是同態的,類型都是一樣的;
  • 模塊度:同很多無監督的據類算法一樣,衡量指標是一個至關重要的因素,很多時候,我們只需要定義好這個指標,然后選擇啟發式的更新方法去不斷優化這個值;一個算法的骨架就形成了;
  • louvain 算法,LPA算法和Infomap算法;
  • louvain 算法就是不斷優化模塊度指標,進行最大化模塊度評價函數;並且可以進行分層;當新的社區形成的時候,社區可以抽象為一個新的節點,然后在新的節點圖的基礎上進一步進行社區發現;從而更好得划分社區;
  • lpa 算法,lap 算法是一個極為簡單的圖傳播算法,其經驗假設是以節點為中心;統計每個節點鄰居的社區,將出現最多次的社區賦給該節點,如果出現最多次的社區有多個則隨機選擇一個社區賦給該節點;由於該算法存在隨機選擇的情況,所以會出現震盪的現象;如果結合帶權重的圖,基於權重的排序,重新考慮基於權重排序的選擇方法;則會有很好的效果;
  • infomap 結合信息熵的概念,重新考慮轉移情況;並引出轉移概率和到達概率的概念,引出一個進入一個社區的概率,社區內節點轉移的概率,從某個社區中出來的概率,並結合信息熵公式,引出平均比特計算的概念;
  • 假設圖被划分為m個社區,那么每走一步就可能是以下三種事件中的一種情況:進入某個社區,從某個社區中出來,在社區內部節點之間轉移;
  • louvain 和 Infomap 算法都是基於一個合理的全局衡量指標對社區的划分不斷進行啟發式的優化。
  • 如果通過據聚類的角度去看待社區檢測,那么一個基本的范式就是首先得到每個節點的特征表達,然后基於各種聚類算法進行聚類;從而得到社區的划分;
  • Dense Subgraph Mining 高密子圖挖掘;
  • HIN (Heterogeneous information Network) 異構信息網絡,為數據挖掘領域的前沿方向;
  • 異構圖與同構圖的定義:
    • Information network信息網絡被定義為一個帶有對象類型映射φ: V → A 和鏈接類型映射 ψ: E → R 的有向圖 G=(V,E) 。每個對象 v∈V 屬於某一個特定對象類型 φ(v)∈A,且每個鏈接 e∈E 屬於關系類型集合R:ψ(e)∈R 中的特定關系類型。如果兩個鏈接屬於相同的關系類型,這兩個鏈接共享相同的起始對象類型以及結束對象類型。
    • Heterogeneous / Homogeneous information network如果一個信息網絡中,對象的類型總數 | A | > 1 或者鏈接的類型總數  | R | > 1,則稱這樣的網絡為異構信息網絡 Heterogeneous Information Network;否則為同構信息網絡Homogeneous information network。
  • 異構圖中的關鍵概念:
    • Network schema 網絡模式;網絡模式是定義在對象類型和關系類型上的一個有向圖,是信息網絡的描述模板。網絡模式全面地描述了HIN中的結構模式;
    • Meta path 元路徑;元路徑是定義在網絡模式上鏈接兩類對象的一條路徑;是整個HIN體系的核心,不同的元路徑,刻畫了對象之間不同的語義關系,這種語義關系的挖掘,是后續各類任務的基石;
  • 相似度計算時數據挖掘領域的首要任務之一,它有益於后續最鄰近搜索,聚類,分類等相關任務;基於元路徑的相似度計算有以下幾個相關的方法:PathSim(對稱元路徑),HeteSim(非對稱元路徑)方法和AvgSim(針對非堆成元路徑的兩端對象的單向可達概率的均值);
  • 針對異構圖現有很多有效的算法,真正的挑戰還是工程實現上所面臨的數據體量的問題;
  • 基於元路徑可以初步完成數據相似度關系的挖掘,然而隨着更深層次的數據挖掘,更加細分的社群檢測或者更個性化的推薦等任務都需要對語義相似性有着更加深刻的挖掘;而基於元結構MetaStructure的相似度定義的方法,就可以滿足這樣的場景的任務需求。
  • 基於元結構的有structcount 方法(結構計數)和SCSE-Structure Constrained Subgraph Expansion (分層隨機游走計算概率)來通過元接結構來進行挖掘異構信息網絡的信息;另外還有 Meta Graph 這種相似度定義方式來使用特定的數據結構進行加速計算;
  • 異構信息網絡的一個核心應用為推薦系統發向;相較於傳統的基於User-Item矩陣之上的方法,由於融合了更多的Side Information 以及以MetaPath為核心的計算體系,使得基於HIN的推薦系統不管是在效果上還是在可解釋性以及多樣性上,都能達到非常高的指標;
  • HIN的基本方法摘錄:分析具體場景所要考慮的關系-融合所有關系構建HIN-基於元路徑或元結構計算相似度-先特征融合再進行分類器學習或者先學習分類器再進行集成,其中的難點在於關系的梳理和相似度計算所依賴的大規模矩陣運算的能力;
  • 神經網絡應該可以叫作可求導編程。神經網絡,機器學習,深度學習就是利用微積分,梯度下降法,利用大量數據擬合出一個函數;這個函數可以用來做分類預測等功能;需要大量的計算,而本身gpu,tpu的出現等,就是為了加速運算的進行;

轉載請注明本文鏈接地址:https://www.cnblogs.com/xuyaowen/p/graph-embedding-gnns.html 

保持更新,資源來源自網絡;更多內容請關注 cnblogs.com/xuyaowen,了解更多內容;如果對您有幫助,歡迎點擊推薦按鈕進行推薦!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM