信息傳播和節點分類
給定網絡中一些節點的label,如何確定其他節點的label
例如,一個網絡中一些節點是詐騙犯,一些節點是可信度高的人,那么如何判斷其他節點?
半年監督節點分類

協作分類:collective classification
利用網絡中的關聯關系
接下來,今天會學3個技巧:
1)relational classification : 關系分類
2)iterative classification:迭代分類
3)belief propagation:置信傳播
網絡中的關聯存在
導致相關關系的3類主要依賴類型:
1)趨同性
2)影響力
3)交互性?



預測米黃色的節點的label

1)相似的節點通常會緊密關聯或者直接相連
2)節點的label通常依賴於:節點的特征;節點的鄰居;節點鄰居的特征

假設網絡具備趨同性,那么預測灰色節點的label

W:帶權重的連接矩陣
Y:label +1,-1,0(待打標簽)

使用節點間的相互關聯關系進行分類

馬爾科夫假設:節點i的label yi由他的鄰居們Ni決定
分為三步:1)local classifier:分配初始的label 2)relational classifier:捕捉節點間的關聯關系 3)collective inference:相關關系的傳播

local classifier: 使用節點自身屬性進行分類,不實用網絡關聯信息
relational classifier:學習一個分類器用於基於節點鄰居的標簽或屬性給節點打標簽
collective inference:迭代的將relational classifier應用於每一個節點,直到鄰居間變得較為一致。網絡結果會影響最終的判斷

精確的推力是一個NP-hard問題,需要一些近似的推理。

每一節點有特征向量fi
找到節點對應的label的概率P(yi)

基於概率的關系分類
對於待labeled的節點,統一初始化標簽Y
隨機更新節點直到最大迭代次數達到
公式如下,但收斂並不能保證,並且模型未使用節點特征信息

例子如下,已打好標簽的p=1或0,其余的統一設為0.5







上述中,未使用節點的自身屬性,那么如何使用他們呢?
iterative classification的重要思想:綜合節點屬性及鄰居標簽對節點進行分類

每個節點有一向量ai
訓練一個分類器,輸入為ai
節點的鄰居數目是多樣的,因此可以集合使用:count,mode,proportion,mean, exists等

iterative classifiers的框架:
1. bootstrap phase:
節點特征向量的生成
訓練分類器,分類器可使用SVM,KNN等
2. iterative phase:
每個節點重復:更新節點特征向量,更新分類器的預測結果yi
迭代直到標簽穩定或最大次數完成
注意:不能保證完全收斂
例子:網頁分類
特征向量:詞袋的生成向量
baseline:訓練一個基於特征向量的分類器
如何提高預測准確率?

每個節點有一個代表鄰居標簽的向量,區分出度與入度

訓練兩個分類器:
一個分類器只考慮節點自身屬性
一個分類器綜合考慮自身屬性與鄰居標簽
迭代。。。




應用: fake reviewer 或 review detection 虛假評論檢測

行為分析:自有特征??(individual features),地理位置,登陸時間,session歷史
語言分析:使用最高級,許多自我參考,拼寫錯誤,協議性的詞
但以上,有較容易仿造
難以仿造的是:關系結構(評論者,評論與商店的關系)

輸入:排序后的二分圖,節點:用戶及商品 邊:評分,-1到1
輸出:給虛假評價的用戶集

基礎思想:用戶,商品,評論有原有的評分

用戶分值更新:

商品分值更新:

評論的可靠性更新:
初始化,每個分數都為好與壞的最高分
迭代1:更新商品的分數


更新評論的可靠度

更新用戶分數

收斂后:

Rev2 能確保收斂 時間性能為編書的線性



置信傳播
是一個動態的問題
當達到一致后,計算最終的置信度

信息傳輸的基礎
每個節點僅能給他的鄰居傳播信息
因此,每個節點僅能接收鄰居的信息,更新並傳播

第三個節點僅能接收前兩個,后三個,以及自己的信息


節點接收樹中所有分支的信息




但是,當回路存在時,上述方法是會錯誤的

Loopy BP algorithm
i發送給j的消息,取決於i從鄰居k收到的

定義:
label-label potential matrix:兩個相鄰節點間的依賴關系矩陣。(i,j)表示當節點j的鄰居i為狀態為yi時處於狀態yj的概率
prior belief:節點i在狀態yi的概率
mij(yj):i對j在狀態yj的估計
L:狀態集

Loopy BP algorithm
初始化所有信息為1
對每個節點重復:

收斂后:

若閉環存在,信息不再獨立
但是我們可以跑BP,一種局部的算法,閉環對其無影響

置信度傳播應用:在線拍賣欺詐

考慮不充足的解決方案:僅考慮自身信息,如用戶屬性等

反饋機制
每個用戶有一個信用分數,由他人打分
通常,欺詐用戶不會相互打分
通常,構建近似的二分圖:正常的,欺詐的
三類:綠色——誠信,黃色——看似正常,紅色——欺詐

使用置信傳播構建近似二分圖
