小螞蟻說:
ACM CIKM 2018 全稱是 The 27th ACM International Conference on Information and Knowledge Management,會議於2018年10月22日-26日在意大利都靈省舉行。CIMK 是國際計算機學會(ACM)舉辦的信息檢索、知識管理和數據庫領域的重要學術會議。本次大會目的在於明確未來知識與信息系統發展將面臨的挑戰和問題,並通過征集和評估應用性和理論性強的高質量研究成果以確定未來的研究方向。本篇文章分享了螞蟻金服在CIKM 2018上的一篇論文《Heterogeneous Graph Neural Networks for Malicious Account Detection》,作者包括劉子奇、陳超超、楊新星、周俊、李小龍、宋樂。在線賬戶伴隨着(移動)互聯網的誕生而產生,在金融服務領域,這種通過批量、低成本注冊的惡意賬戶的存在是十分危險的。本文介紹了一種新的基於異構圖的、面向惡意賬戶識別的圖神經網絡方法GEM ,這也是這也是世界上已知的第一個面向惡意賬戶檢測的圖神經網絡方法。
1.概述
本文的主要目的是介紹一種新的基於異構圖的、面向惡意賬戶識別的圖神經網絡方法(GEM, Graph Embeddings for Malicious accounts)[1]。該方法是支付寶為保障體系內賬戶安全,降低惡意賬戶帶來的資損,保障支付體系健康,在人工智能領域所做的努力和嘗試。這也是世界上已知的第一個面向惡意賬戶檢測的圖神經網絡方法。
下面,我們將為大家講解如下內容:
1. 惡意賬戶是什么?具有什么特點?
2. 為什么圖神經網絡方法能夠高效識別惡意賬戶?
3. 我們的 GEM 方法如何工作?
感興趣的朋友請直接戳論文查看細節:
https://dl.acm.org/citation.cfm?id=3272010
2.惡意賬戶是什么?具有怎樣的特點?
2.1什么是惡意賬戶
隨着(移動)互聯網誕生,催生了多種形式的在線服務,在線賬戶隨之產生。比如:Gmail 提供的郵件服務,微博/Twitter 提供的短消息分享服務,支付寶提供的支付服務等。通過注冊大量 Gmail 郵箱賬戶,惡意用戶就可能迅速、大量地擴散垃圾廣告等信息。微博賬戶等也可能催生僵屍賬戶達到某種非法營銷、傳播目的。在金融服務領域,這種惡意賬戶的存在就更加危險,比如注冊大量新賬戶達到薅羊毛、洗錢、欺詐等目的。
用一句話總結:惡意賬戶具有強烈獲取利益傾向和團伙性質,往往是通過批量、低成本注冊的賬戶。
2.2惡意賬戶的特點
本文我們對黑產賬戶數據進行分析,並總結如下特點:
1.設備聚集性:見下圖所示。兩張圖分別展示了用戶(縱軸)過去是否在設備(橫軸)有過登錄行為。藍色點代表該用戶過去有在某設備上登錄過。其中,左圖顯示的是正常賬戶特征,右圖顯示的是惡意賬戶特征。從圖中可以看出,左圖 pattern 較為均勻(regular),即便不同類型的設備(媒介)上,其和賬戶連接的 pattern 可能密度不太一樣。右圖則完全不同,我們可以在黑產賬戶上看到極為有規律和稠密的 pattern。這說明,黑產賬戶更傾向於在設備(媒介)的聯通上有着高聚集性。
2.時間聚集性:見下圖所示。兩張圖分別展示了賬戶(縱軸)在時間(橫軸)上的行為序列。其中一個藍點代表該用戶在某時間點上有登錄行為。左圖仍然為正常賬戶,而右圖則是黑產賬戶。因為我們取的都是新注冊賬戶,所以在注冊時間點前無行為。從左圖可以看出,正常賬戶在注冊之后,每天會有均勻的登錄 pattern,右圖中的黑產賬戶則只在某個時間段內集中達成某種行為,這種 pattern 我們稱之為時間聚集性。
小結:這兩種特征是黑產賬戶所固有形成的。即,這些黑產受利益所驅動而無法繞開這些模式(只要能准確捕獲黑產賬戶之間共享的設備信息,這里的設備不限於某一個手機、某一個IP地址,可以認為是一種媒介)。我們針對這些數據特點設計了基於圖的神經網絡算法識別黑產賬戶。
3.為什么圖神經網絡算法能識別黑產
一個直觀的方法是聯通子圖方法。我們先構建賬戶-設備二部圖,由於設備聚集性,我們可以計算每個聯通子圖的節點數目,每個賬戶的危害程度取決於該節點所在聯通子圖的節點數目。該函數本質上可以用圖神經網絡抽象。有興趣的讀者請見我們公眾號另一篇文章:《論文 | 螞蟻金服亮相數據挖掘頂會KDD 2018,這些你不可錯過!》。
該方法可以准確識別那些設備聚集度特別高的黑產賬戶。但是對於設備聚集程度一般或較低的賬戶,很難做出准確區分。
4.GEM 方法如何工作
基於我們前面對設備聚集性和時間聚集性的分析,我們將上面的用於刻畫聯通子圖的圖神經網絡方法進行擴展:
第一、我們構建異構圖,包括賬戶類節點,以及多種類型的設備信息,如:電話、MAC、IMSI 以及其他 ID。
第二、我們為每個賬戶加入時間上的行為特征 X ∈ RN,P。其中每行 Xi 表示節點(賬戶或設備)在時間上的行為特征。我們希望構建的神經網絡模型可以學習到通過設備聚集在一起的賬戶在行為特征上的模式,從而更准確的做出判別。
我們的算法如下:
5.結果
我們使用了連續 4 周的數據,比較了 GEM 和其他有競爭力的方法在這些數據上的 AUC 和 F1-score 上的表現。
下面,我們比較了這些方法在 Precision-Recall 曲線上的表現。從圖中可以看出,GEM 可以在召回的頭部到尾部,都保持相對一致的高准確度。這使得我們的方法可以在避免打擾正常賬戶的同時,有效打擊黑產賬戶。
最后,我們分析了我們的算法自動識別的異構圖中不同類型賬戶的有效性。這些分析可以幫助我們更加有效理解哪類設備在當前有高概率會被利用,以及隨時間變化,黑產策略的調整等。
參考文獻
[1] Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song. Heterogeneous Graph Neural Networks for Malicious Account Detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Turin 2108.