06-Message Passing and Node Classification 圖機器學習之信息傳播與節點分類 - 碼上歡樂

相關內容簡體繁體

06-Message Passing and Node Classification 圖機器學習之信息傳播與節點分類

本文轉載自查看原文 2020-02-06 23:13 878

信息傳播和節點分類

給定網絡中一些節點的label，如何確定其他節點的label

例如，一個網絡中一些節點是詐騙犯，一些節點是可信度高的人，那么如何判斷其他節點？

半年監督節點分類

協作分類：collective classification

利用網絡中的關聯關系

接下來，今天會學3個技巧：

1）relational classification ：關系分類

2）iterative classification：迭代分類

3）belief propagation：置信傳播

網絡中的關聯存在

導致相關關系的3類主要依賴類型：

1）趨同性

2）影響力

3）交互性？

預測米黃色的節點的label

1）相似的節點通常會緊密關聯或者直接相連

2）節點的label通常依賴於：節點的特征；節點的鄰居；節點鄰居的特征

假設網絡具備趨同性，那么預測灰色節點的label

W：帶權重的連接矩陣

Y：label +1，-1,0（待打標簽）

使用節點間的相互關聯關系進行分類

馬爾科夫假設：節點i的label yi由他的鄰居們Ni決定

分為三步：1）local classifier：分配初始的label 2）relational classifier：捕捉節點間的關聯關系 3）collective inference:相關關系的傳播

local classifier: 使用節點自身屬性進行分類，不實用網絡關聯信息

relational classifier：學習一個分類器用於基於節點鄰居的標簽或屬性給節點打標簽

collective inference：迭代的將relational classifier應用於每一個節點，直到鄰居間變得較為一致。網絡結果會影響最終的判斷

精確的推力是一個NP-hard問題，需要一些近似的推理。

每一節點有特征向量fi

找到節點對應的label的概率P（yi）

基於概率的關系分類

對於待labeled的節點，統一初始化標簽Y

隨機更新節點直到最大迭代次數達到

公式如下，但收斂並不能保證，並且模型未使用節點特征信息

例子如下，已打好標簽的p=1或0，其余的統一設為0.5

上述中，未使用節點的自身屬性，那么如何使用他們呢？

iterative classification的重要思想：綜合節點屬性及鄰居標簽對節點進行分類

每個節點有一向量ai

訓練一個分類器，輸入為ai

節點的鄰居數目是多樣的，因此可以集合使用：count，mode，proportion，mean， exists等

iterative classifiers的框架：

1. bootstrap phase：

節點特征向量的生成

訓練分類器，分類器可使用SVM,KNN等

2. iterative phase：

每個節點重復：更新節點特征向量，更新分類器的預測結果yi

迭代直到標簽穩定或最大次數完成

注意：不能保證完全收斂

例子：網頁分類

特征向量：詞袋的生成向量

baseline：訓練一個基於特征向量的分類器

如何提高預測准確率？

每個節點有一個代表鄰居標簽的向量，區分出度與入度

訓練兩個分類器：

一個分類器只考慮節點自身屬性

一個分類器綜合考慮自身屬性與鄰居標簽

迭代。。。

應用： fake reviewer 或 review detection 虛假評論檢測

行為分析：自有特征？？（individual features），地理位置，登陸時間，session歷史

語言分析：使用最高級，許多自我參考，拼寫錯誤，協議性的詞

但以上，有較容易仿造

難以仿造的是：關系結構（評論者，評論與商店的關系）

輸入：排序后的二分圖，節點：用戶及商品邊：評分，-1到1

輸出：給虛假評價的用戶集

基礎思想：用戶，商品，評論有原有的評分

用戶分值更新：

商品分值更新：

評論的可靠性更新：

初始化，每個分數都為好與壞的最高分

迭代1：更新商品的分數

更新評論的可靠度

更新用戶分數

收斂后：

Rev2 能確保收斂時間性能為編書的線性

置信傳播

是一個動態的問題

當達到一致后，計算最終的置信度

信息傳輸的基礎

每個節點僅能給他的鄰居傳播信息

因此，每個節點僅能接收鄰居的信息，更新並傳播

第三個節點僅能接收前兩個，后三個，以及自己的信息

節點接收樹中所有分支的信息

但是，當回路存在時，上述方法是會錯誤的

Loopy BP algorithm

i發送給j的消息，取決於i從鄰居k收到的

定義：

label-label potential matrix：兩個相鄰節點間的依賴關系矩陣。（i,j）表示當節點j的鄰居i為狀態為yi時處於狀態yj的概率

prior belief：節點i在狀態yi的概率

mij（yj）：i對j在狀態yj的估計

L：狀態集

Loopy BP algorithm

初始化所有信息為1

對每個節點重復：

收斂后：

若閉環存在，信息不再獨立

但是我們可以跑BP，一種局部的算法，閉環對其無影響

置信度傳播應用：在線拍賣欺詐

考慮不充足的解決方案：僅考慮自身信息，如用戶屬性等

反饋機制

每個用戶有一個信用分數，由他人打分

通常，欺詐用戶不會相互打分

通常，構建近似的二分圖：正常的，欺詐的

三類：綠色——誠信，黃色——看似正常，紅色——欺詐

使用置信傳播構建近似二分圖

來自為知筆記(Wiz)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習入門12 - 分類 (Classification) 機器學習算法分類機器學習--分類問題機器學習：多分類及多標簽分類機器學習-TensorFlow應用之classification和ROC curve 李宏毅機器學習筆記3：Classification、Logistic Regression 機器學習-反向傳播算法（BP）代碼實現（matlab）機器學習分類算法評價指標機器學習常見算法分類匯總機器學習系列之分類

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM