Enhancing Graph Neural Network-based Fraud Detectors against Camouflaged Fraudsters
作者:Yingtong Dou, Zhiwei Liu, Li Sun, Yutong Deng, Hao Peng, Philip S. Yu
Department of Computer Science, University of Illinois at Chicago School of Computer Science, Beijing University of Posts and Telecommunications Beijing Advanced Innovation Center for Big Data and Brain Computing, Beihang University
Abstract
提出一種模型 \(CAmouflages-REsistant GNN(CARE-GNN)\),用於基於GNN的欺騙檢測,特別是對抗使用偽裝的欺騙者。
- 標簽感知去找到信息豐富的鄰居節點
- 利用強化學習去選擇最佳鄰居數量
- 將不同關系的選定鄰居聚合在一起
創新點/貢獻/優勢:
- 適應性:CARE-GNN給定任意的多重關系圖,自適應地選擇最佳鄰居進行聚合
- 高效性:CARE-GNN具有較高的計算效率,無需attention和深入的強化學習
- 靈活性:可以將許多其他神經模塊和外部知識插入到CARE-GNN
Introduction
特征偽裝:加入特殊字符
關系偽裝:欺騙者連接較多的良性用戶
對於特征偽裝,提出了一種標簽感知的相似度度量,以基於節點特征找到最相似的鄰居 。
對於關系偽裝,設計了一個相似性感知的鄰居選擇器來選擇中心節點的相似鄰居 關系中,此外,我們利用強化學習(RL)以及GNN訓練過程來自適應地找到最佳鄰居選擇閾值。
我們利用RL學習的鄰居過濾閾值來制定區域感知鄰居聚合器,該聚合器結合了來自不同關系的鄰域信息並獲得 最終的中心節點表示形式
Model
總體的結構如下:
對於每一層都有鄰居選擇,關系感知鄰居聚合器。
- 鄰居選擇包括:標簽感知相似度度量、相似度感知鄰居選擇器。
- 關系感知鄰居聚合器:內部關系聚合、相互關系聚合
標簽感知相似度度量:
對於兩個鄰接節點,將上一層的特征經過MLP后在經過一個激活函數,將兩個點做差
定義相似度為S
定義損失函數,來調整MLP上的w
相似度感知鄰居選擇器:
對於每種關系的聯系,去其S值,也就是相似度最高的top-p,使用強化學習來學習最佳的閾值 \(p_r^l\) 來篩選鄰居節點
內部關系聚合:
AGG為任意聚合函數
相互關系聚合:
聚合來自不同關系的鄰居信息。 先前的方法采用注意力機制,以在從不同關系聚合信息時學習關系權重。 但是,假設我們在每個關系下選擇了最相似的鄰居,則注意系數在不同關系之間應相似。 因此,為了節省計算成本,同時保留相關重要性信息,我們直接將強化學習流程獲得的最佳過濾閾值 \(p_r^{(l)}\) 作為權重
定義損失函數
Experiments
數據集
Yelp數據集包含由Yelp過濾和推薦的酒店和餐廳評論。 Amazon數據集包括“樂器”類別下的產品評論
R-U-R: it connects reviews posted by the same user
R-S-R: it connects reviews under the same product with the same star rating (1-5 stars)
R-T-R: it connects two reviews under the same product posted in the same month
U-P-U: it connects users reviewing at least one same product
U-S-V: it connects users having at least one same star rating within one week
U-V-U: it connects users with top 5% mutual review text similarities (measured by TF-IDF) among all users.
可以發現標簽還是很重要的
實驗結果
( CARE-Att, CARE-Weight, and CARE-Mean,and they differ from each other in Attention, Weight, and Mean inter-relation aggregator respectively)
Graph-Consis也有較好的表現,因為其也有對於鄰居節點的篩選的過程
多種聚合方式的比較
第4列圖 顯示了對於兩種測試集的測試性能。 對於Yelp數據集,GNN具有比相似性度量更好的AUC和Recall,這表明利用結構信息有利於模型對欺詐和良性實體進行分類。對於亞馬遜來說,GNN的性能和相似性度量可以相互媲美。 這是因為輸入功能提供了足夠的信息來區分欺詐者
多層的模型,適用於稀疏圖
Conclusion
本文研究了欺詐者的偽裝行為及其對基於GNN的欺詐檢測器的對抗作用。 為了增強針對欺詐者的特征偽裝和關系偽裝的基於GNN的欺詐檢測器,我們提出了一種使用強化學習的標簽感知相似度度量和相似感知鄰居選擇器。 連同兩個神經模塊,我們進一步提出了一個關系感知聚合器,以最大化計算的實用性。