A Semi-supervised Graph Attentive Network for Financial Fraud Detection
作者:Daixin Wang, Jianbin Lin, Peng Cui, Quanhui Jia, Zhen Wang, Yanming Fang, Quan Yu, Jun Zhou, Shuang Yang, Yuan Qi, Ant Financial Services Group, China, Department of Computer Science and Technology, Tsinghua University, China
Abstract
提出了半監督圖注意力網絡(SemiGNN),在多視圖、標簽、無標簽數據上,應用於欺騙檢測。
創新點:
-
第一篇使用半監督圖神經網絡在欺騙檢測上
-
使用多等級的注意力機制去適應不同的鄰接節點、不同的視圖。
-
使結果更具有解釋性,可以得到對於欺騙檢測的重要因素
-
使用了支付寶的大量數據,得到一個目前最佳的效果
Related Work
基於規則方法:
需要大量的先驗知識,進行制定判定規則,並且容易被攻擊破解
在圖上進行學習:
不能夠結合標簽數據和無標簽數據,並且沒有充分利用的圖的全部信息,沒有使用多視圖的結構。
Model
總體的結構如下:
點層 注意網絡:
首先先計算每個兩個節點的注意力相關系數\(e^v_{ui}\) ,
\(e^v_{ui} = w_{ui}·M^v_i其中M_v∈R^{|n_v|·d}\)
\(R^{|n_v|·d}\)是 \(v\) 視圖的一個向量空間
接下來將求出重要性系數,其中有包含特征向量和注意力相關系數
求出經過注意力機制后的特征向量
視圖層 注意網絡
通過上一層,學習到了一個點在特定視圖下的特征向量,但是該特征並沒有學習更加綜合的知識,需要融合多個視圖的信息
為了解決該問題,使用單獨的多層感知器(MLP)將低級別特定於視圖的用戶特征嵌入到高級空間中,然后融合多視圖的信息
可以在整體框架中找到其對應位置,是點層 注意網絡到視圖層 注意網絡的過渡。
接下來需要得到一個視圖的重要性系數\(α\)
其中 \(φ^v_u\) 是為每個用戶引入一個視圖偏好向量。 向量是隨機初始化的,是在訓練過程中學習的。
和GAT一樣將對於具體視圖的的特征向量進行拼接
最后使用一個單層感知器,該感知器使用聯合用戶嵌入對輸入進行細化以表示,然后可以獲得用戶 \(u\) 的最終高級嵌入,我們將其表示為\(a_u\)
損失函數:
定義分類損失:
需要利用未標簽數據,從標簽點隨機遍歷周圍節點,使用圖損失函數
最后將監督分類損失和無監督圖損失結合起來,形成最終目標函數
$L_{reg} =L2 \ \ \ regularization $
模型復雜度約為 \(O(M)\) 是邊數量的線性級別、
Experiments
數據來自支付寶
用戶是否為欺騙用戶預測:
用戶屬性預測:
不同視圖的影響:
參數敏感度:
Conclusion
在本文中,提出了一種用於欺詐檢測的半監督圖注意力網絡模型。
模型通過標簽和未標簽數據之間的社會關系將其鏈接起來,並且提出了一種分類器,該分類器通過提出分類損失,一方面與標記的數據的標簽一致,另一方面通過提出基於圖的損失,使相似頂點的分類結果相似。
提出了一種分層注意機制來更好地消除多視圖圖。 節點級別的注意力能夠更好地關聯鄰居,而視圖級別的注意力可以更好地整合不同的視圖。
在實驗上,與基准方法相比,該方法可獲得更好的結果。 並且模型可以給出影響預測的的重要因素。
未來的工作可能集中在區分不同的社會關系上,以進一步完善該模型。將模型擴展到更多欺詐檢測應用程序。