大數據風控系統概述

本文轉載自查看原文 2020-01-19 10:13 2759 Spark系列/ 風控系統/ 知識圖譜系列

為什么要做風控系統

不做的話，會有以下風險：

各種小號、垃圾賬號泛濫
撞庫攻擊、盜號、毀號、拖庫等
拉新 10w 留存率不到 5%
百萬營銷費用，卻增加不了用戶粘性
投票票數差距非常懸殊
各種榜單被垃圾賬號占領
實物獎勵被機器人領走
紅包被秒搶
下單不付款占庫存
虛擬占座
刷單炒信
……

風控場景

營銷活動反作弊

防御現金紅包獎勵、優惠劵促銷、電商秒殺等營銷活動場景下薅羊毛、黃牛黨倒賣等各種欺詐行為

內容防盜爬

防御行業競爭數據、高價值內容、隱私數據等被盜爬行為

渠道流量反作弊

防御 iOS、國內外 Android 等各類渠道推廣流量作弊行為

刷榜刷單防護

防御直播熱度排行、電商銷量排行、熱門內容推薦等場景下惡意刷榜刷單行為

虛假用戶裂變識別

防御拉新、助力砍價、電商拼團等場景下虛假用戶裂變行為

支付風控

防御盜卡交易、游戲代充等欺詐行為

作弊手段

打接口和虛擬機

這兩種手法比較相似，都是用電腦模擬手機等移動設備，以虛假設備信息和網站、APP 的服務器端通信。

這種低成本手段是移動互聯網水大魚大時期的遺留物，銘刻着各平台未對黑產痛下殺手時的“美好記憶”，由於操作簡便，不需額外資源，仍是目前主流的黑產手段之一。

識別打接口的主要方式是：引入設備標識判斷邏輯，沒有任何設備標識信息或信息不正確，就會被判斷為打接口“假客戶端”。

識別虛擬機的方法：其中一種方法是看 CPU、PC 上虛擬機使用的 CPU 指令集架構和移動設備會有明顯差別，如果發現指令集屬於 PC 而非移動設備，則識別成功。

設備農場

此后，黑產不得不啟用更高成本的新手段——用真實手機作惡，設備農場形態應運而生。

這是與黑產對決的一個長期堡壘，攻防雙方的手段交替進化，主要經歷下面幾個階段：

簡單刷機（通過修改單個設備信息，如 IMEI 號，用一台手機模擬出多個移動設備）、

復雜刷機（通過修改多維度設備信息模擬移動設備）、

Hook 改機（通過劫持系統函數、返還虛假信息模擬移動設備）和

多開（通過劫持系統函數，同時在單台手機上打開幾十個相同應用，如幾十個微信，提高作惡效率），
把黑產逼到了不得不啟用“真機農場”的境地。

而真機農場，就是“老老實實”地把一台手機當做一個設備來用，相比用一台真實設計模擬數個虛假設備，其成本已十分高昂。

反欺詐工程師們也找到了應對真機農場的關鍵：即便不刷機、不 Hook，群控卻依然是黑產無法繞過的核心，所以在對群控多維痕跡進行專門檢測后，真機農場也無所遁形。

2018 年的黑產新動向：雲手機、硬件插件和積分牆

雲手機

2018 年 9 月下旬，雲手機橫空出世。就像其名稱所展示的，這是雲計算在黑產界的最新應用。和“雲手機”的對決，

雲手機和傳統設備農場的最大區別是：它背后並不是一個真正的手機，而是一套搭載在雲服務器上的虛擬手機。

在雲手機加持的新型農場里，場景更加“科幻”——掛在牆上的不再是成百上千的手機，而是一片片裝載了安卓的板卡，這些板卡可被電腦群控，模擬正常智能手機的注冊、點擊、分享等一系列用戶行為。

硬件插件

在雲計算之外，黑產也開始用起了硬件插件。

大牛是一款可插裝在蘋果手機上的硬件，它最牛的功能是，是插上之后，能讓蘋果手機在不“越獄”（開放用戶操作權限）的情形下實現改機和篡改 GPS 的目的。

搞清了這個原理后，只要識別出相關特征，大牛也就不牛了。

積分牆

目前這波黑產中最難搞定的 Boss 級手段——積分牆。積分牆其實就是“人刷”，由羊頭和羊群協作完成。

厲害的羊頭能觸及多達萬級乃至十萬級的職業、半職業羊毛黨。一旦有大漏洞出現，羊頭就會將消息層層放出，組織大家一起薅——在由各種信號、傳輸協議連接的“平靜互聯網”中，羊頭引領這支大軍，進行着“奪金不用刀”的無聲“搶劫”。

電商平台今年初的優惠券漏洞，就可以理解成一次驚動全網的“積分牆”。積分牆的攻防難點在於，背后是真人、真設備。很難識別，這也是我們近期對抗的重點，不過現在也快識別得差不多了。”

識別的方法也自成體系，主要通過團伙特征和行為時序異常等維度來綜合判斷，再結合通過大數據例行運營挖掘出的積分牆應用，一起做到風險可控。

風控系統解決方案

全鏈路風控解決方案，包括三大部分：事前預防、事中檢測處置、事后分析回饋

事前預防：通過數據采集收集用戶側信息、通過業務規則來限定參與活動的門檻、通過身份核驗來確認用戶身份等手段，防止風險事件的發生。
事中檢測處置：通過實時在線的手段來檢測風險，並做相應的風險處置，防止風險事件的發生。
事后分析回饋：基於長周期的離線數據分析，計算用戶側、設備側、IP 側、業務側的各種風險特征，並作用於事前風控和事中風控。

風控主要功能

從數據提供規范、支持規則和社群、黑產庫、輸出方式等方面提供完整的解決方案
風控引擎主要的工作是識別風險，一般的風控引擎都需要如下幾個功能：

名單服務：建立黑、白、灰名單；
畫像服務：建立基於 IP、手機號、賬戶等層級的畫像服務；
指標計算：一般包括高頻類統計、求和、計數、求平均值、求最大值、求最小值等等；
風控模型：基於采集到的數據，建立風控模型，比如：設備模型、行為模型、業務模型等；基於機器學習、深度學習技術來構建業務模型、設備模型、行為模型，或文本類模型（異常地址檢測、異常昵稱檢測）等；
規則引擎：最終的風控數據進入規則引擎，由規則引擎判斷是否存在風險。風控運營需基於業務建立各種風控規則，以識別風險。

風控系統架構

## 數據采集

用戶信息/ 設備指紋 / 操作行為 / 網絡數據 / 提現數據 /第三方數據

機器學習模型

社交網絡

欺詐團伙識別，基於手機號、設備、IP，行為等建立時域關聯網絡，利用社群發現、
風險傳播等無監督算法精准防御黑產團伙欺詐行為

離群點分析

識別異常頻率行為用戶，如刷量用戶

復雜事件處理

基於一些規則模型，檢測異常行為。比如信用卡盜刷檢測，
識別用戶短時間內切換不同地點登陸賬戶

效果評估

准確率召回率

異常團伙示例

通過機器學習模型生成的團伙行為特征如下所示：

社群成員有相同的手機型號和手機號前綴，且啟動時間高度一致，還都在充電，該團伙疑似為設備農場作弊。

規則引擎

根據規則和閾值進行判斷，返回用戶風控等級，下面為幾個規則引擎方案：

借助成熟的規則引擎，比如 Drools，Drools 和 Java 環境結合的非常好，本身也非常完善，支持很多特性，不過使用比較繁瑣，有較高門檻
基於 Groovy 等動態語言自己完成
Spark SQL + 規則轉化成的 SQL 語句構建規則引擎對用戶風控指標進行分級

管理系統

指標管理
指標組合管理
閾值管理
名單管理
提現審批

參考

https://zhuanlan.zhihu.com/p/84747637
https://www.cnblogs.com/cx2016/p/11647110.html
https://www.jianshu.com/p/a14f1d9a1d9d
https://ixyzero.com/blog/archives/4270.html