一、淘寶 反作弊體系結構
淘寶反作弊體系結構可以從數據、算法、和系統三個維度來解釋
數據:主要是將識別的作弊數據匯總到買家、寶貝、訂單和賣家 四個維度並全量提供給了數據平台供各業務方使用,即可用作算法訓練樣本的特征,也方便系統查詢和監控作弊數據的趨勢變化情況;
算法:覆蓋了包括賬號網、交易網、資金網和物流網四網合一的大數據,徹底打通了售前、售中、售后全鏈路業務,可以多方位識別各種作弊行為;
系統:主要是建立在數據層基礎之上的一套包含監控預警、在線分析和風險運營系統,能快速高效地窺視刷單行蹤並及時阻斷其獲利點;
二、淘寶反作弊算法
淘寶反作弊算法體系是伴隨着淘寶平台而不斷優化和完善的,早期作弊的形式非常簡單,比如頻繁修改商品上下架時間來獲取有利的商品排名,這種作弊手段往往經過簡單的分析處理就可以制定相關的規則來處理,隨着平台業務場景的多元化,作弊手段也隨着變化多樣,但大部分集中在商品基礎信息層面上的作弊,比如類目錯放、標題詞濫用、誇大宣傳、低價炒信、廣告商品、重復鋪貨、刷流量和查詢詞等等,或者機器刷單模式。
道高一尺魔高一丈,無論刷單手法多么詭計多端,淘寶反作弊算法體系都能快速響應。其中最重要的就是實現了一套覆蓋全鏈路(售前、售中、售后)大數據(賬號網、交易網、資金網、物流網)的實時分析處理能力,因此任何一條隱蔽性強的“精刷”作弊路徑都可以被海量大數據從多個點來進行算法建模和交叉分析,從而能快速地識別並控制住風險。淘寶反作弊算法框架大致見下圖1。

圖1、淘寶反作弊算法框架
首先整個反作弊算法框架融合了“賬號網、交易網、資金網、物流網”四網大數據,並覆蓋了電商“購物前-購物中-購物后”多個業務環節,算法模型是一種流式計算框架,數據日志經過實時和離線兩大計算模塊后會加工成一些交易屬性特征作為識別算法的基礎,其中實時計算主要是對一些異常的在線數據(比如商品銷量異常或者賣家信譽增長異常)進行快速分析並轉化為相應的特征,而離線計算是對全鏈路數據的特征加工和處理,結合在線和離線的計算可以將行為變化的長期和短期因素的影響在模型計算中綜合考慮,從而進一步提高識別的時效性和精度。
淘寶反作弊算法框架主要覆蓋了阿里電商兩大場景:日常反作弊和大促反作弊。算法主要是以大規模圖挖掘(Graph Mining)和在線學習(online learning)為核心,在線學習可以對一些規則性的算法做到實時更新模型用來防范“試探性”地作弊手段,主要是基於規則的的模型(決策樹和LR邏輯回歸模型),根據一些交易特征建立強規則來進行識別計算,對那種明顯的商品作弊模式的識別非常高效。
而大規模圖挖掘則是通過跳出行為“局部性”的方法考慮行為的“全局性”來深挖“精刷”類型的作弊手段。比如概率圖模型對用戶行為路徑進行時間序列建模(假設正常用戶的行為軌跡的時間序列是服從某種概率分布,異常的行為軌跡在某些點上服從其他概率分布),對那種機器刷單或者固定模式刷單能非常有效地識別;圖標簽傳播模型可以來做團伙刷單的識別,對炒信平台隱蔽性高組織性強的“精刷”模式的識別非常高效准確。為了進一步驗證算法模型的精准性,反作弊體系也增加了實時干預模塊來做交叉驗證和分析,主要包括專家知識、人工舉報、異常監控和人工評測,這些外部數據源加工處理后可以作為驗證數據動態幫助模型進一步優化。
大規模圖搜索技術在反作弊中的應用主要體現在下面四類核心算法:
標簽圖模型:在大規模屬性圖結構上做社區和團伙挖掘;和以往的分類等機器學習算法不同的是,在屬性圖上有效地利用標簽傳播算法分析用戶的行為可以挖掘出很多其他算法識別不到的同機團伙和協同炒作團伙;
概率圖模型:在大規模圖結構上挖掘變量之間的關系;利用概率圖模型可以有效分析用戶信息的風險程度(比如預防用戶地址泄密)和用戶購物行為鏈路之間的關聯(比如識別賬號異常行為)
數據流圖模型:在大規模數據流上挖掘頻繁子圖,利用數據流挖掘我們在資金流網絡中首次發現了由“僵屍賬號”通過炒信行為產生的“坍縮網絡”,同時構建了一套“轉賬首活網絡”能有效識別這些炒信用戶,准確率達到了99.9%;
大規模圖鏈接模型:在大規模圖數據基礎上做排序和權重挖掘,通過這種圖鏈接方法我們有效地發現了重復運單和虛假運單的行為;我們的圖算法能並行處理1億以上節點5億條邊的圖數據。在 3千萬個節點,2.2億條邊的圖數據上調用圖鏈接算法時間僅需要14分鍾。同時整個算法框架也包含了實時計算模塊,使得對時效性要求高的業務場景下(比如雙11)部分算法識別可以實現0秒延遲並可以每15分鍾動態調整並跟新所有其他的模型。
三、大數據全鏈路反作弊示例
淘寶反作弊最核心的部分就是搭建了一個將“賬號網、交易網、資金網、物流網”四網合一的全鏈路大數據的天羅地網,做到全方位無死角的監控和識別任一種作弊行為
賬號網:主要是從各種注冊信息或登陸信息中來全方位真實了解賬號的真實性和平台特性,通過挖掘用戶行為的變化情況來有效發現賬號行為的異常性(見圖3);

圖2、大數據全鏈路反作弊識別賬號網
交易網:主要通過挖掘用戶具體的購買行為路徑來跟蹤是否有異常,這涉及到“售前”(搜索詞,點擊瀏覽,詳情頁等)“售中”(收藏夾,購物車,支付等)“售后”(物流,評論,退貨等)(見圖3);

圖3、大數據全鏈路反作弊識別交易網
資金網:主要是通過挖掘資金流的行為來識別一些異常交易或者洗錢,盜號,套現等高危行為(見圖4);

圖4、大數據全鏈路反作弊識別資金網
物流網:主要是通過挖掘交易和物流環節的關聯性來識別一些虛假運單和空包等作弊行為(見圖5).
四、總結
淘寶反作弊體系已經建立並完善了一套完整的包括“賬號網”、“交易網”、“資金網”、“物流網”的大數據分析體系,和覆蓋“售前”、“售中”和“售后”的電商全鏈路的在線學習(Online Learning)和大規模圖挖掘(Graph Mining)算法識別系統。同時還建立了完整的“平台化”風險管控系統-“蟲洞”,通過系統監控預警以及在線分析的方式將模型算法和人工運營有效結合起來,不僅能高效識別作弊行為並進行了有效地干預,同時還可以有效控制各種風險。經過日常和大促的洗禮,淘寶反作弊算法體系無論在准確率、覆蓋率、反彈率上都能經受任何形式的考驗。