作者|Frank:
Frank, 愛奇藝雲平台科學家, 目前是愛奇藝安全雲負責人, 日常主導安全雲在業務安全, 雲安全, 數據安全, 安全攻防, 移動安全等各領域的技術創新和項目實施, 特別是將大數據風控引入到了愛奇藝業務安全保障中, 實現數據驅動安全和安全智能化。
01
普遍業務風險
行業的共同的問題
愛奇藝在快速發展過程中, 業務越來越多,越來越復雜,用戶的權益和信息價值越來越高, 我們面臨的業務安全的挑戰也就越來越大。
除了傳統的網絡黑客的入侵,攻擊以外,新的業務形態帶來的新型風險: 比如撞庫盜號,盜播盜看,很多的營銷活動招引大量的薅羊毛的行為, 刷量, 刷人氣, 惡意發布不良信息等風險, 社交場景下的拉粉和不良信息惡意傳播, 支付場景下的欺詐, 所有這些風險一旦被黑產利用, 都可能對企業的穩定運營帶來大的沖擊。
以下總結了各種業務會遇到的風險:
01會員:撞庫盜號,賬號分享,批量注冊
02視頻:盜播盜看,廣告屏蔽,刷量作弊
03活動:薅羊毛
04直播:掛站人氣,惡意圖文
05電商:惡意下單,訂單欺詐
06支付:盜號盜卡,洗錢,惡意下單,惡意提現
07其他:釣魚郵件,惡意爆破,短信轟炸
02
解決方案
安全 + 風控
針對新的業務形態會遇到的問題,除了一方面是要用常規安全解決方案去解決,另外我們也要對業務做充分的風險評估和及時控制。
常規安全解決方案是加強安全制度和體系建設,推動安全開發和安全運維,關注邊界安全, 數據安全和縱深防御。
后者是我們要重點為給公司帶來核心價值的關鍵業務,從風險管控上保護好他們。
03
業務上線運營
問題多多
業務在上線運營以后, 不是說沒有關注風險評估和控制,但是以前的做法存在有非常多的問題,這里舉四類主要的問題:
一、各自為戰
1、各業務方多以安全事件驅動, 多數僅做事前單點防御, 經驗數據無法共享
2、單點防御容易被黑產各個擊破, 無法做到跨業務跨團隊的聯防聯控
3、低水平重復建設, 平台資源浪費
二、拍腦袋"規則"
1、大量的風控規則是專家決策為主,閾值基本拍腦袋而定
2、沒有引入數據分析或者機器學習等能力, 對事件本質缺乏足夠認識及數據支撐, 造成正常用戶誤殺, 損傷用戶體驗, 導致用戶流失
三.反應過慢
1、不能快速識別攻擊變化進行調整,無法進行積極對抗
2、業務代碼耦合,依賴業務開發, 測試和上線,占用業務排期
3、某些前置/內置規則容易成為業務關鍵路徑, 對業務穩定性造成影響
四、手段單一
1、可用特征維度不多, 嚴重依賴於IP, 公共出口誤殺嚴重,引發投訴
2、以限頻, 限流, 黑白名單, 圖文驗證為主, 黑白名單難以維護, 無生命周期
04
目標風控系統
用雲服務來解決業務問題
要解決業務在上線運營以后遇到的問題,我們需要將風控服務,以雲服務的方式提供業務,讓業務關注業務本身, 讓跨業務支持的統一風控雲服務來對其進行保障。
到底要提供給業務團隊怎么樣的風控服務呢?
這里列一下我們的設計目標, 這些目標的達成也就能解決前面說的問題。
一、聯防聯控
1、各業務聯合, 在模型,規則,數據等方面進行共享, 聯合布控協同防御
二、數據驅動, 智能對抗
1、全站全網數據支撐, 基於數據進行決策
2、利用機器學習實現智能異常特征發現
三、策略靈活, 有效對抗
1、獨立服務, 快速迭代
2、支持業務的風險多樣運營需求
3、模型,規則, 策略快速實施, 快速反應
四、維度和攔截手段多樣
1、不依賴單一維度和單一行為
2、雲和端結合, 多種攔截手段應對
五、延遲可控, 低耦合可降級
1、在實時風控場景下, 快速決策, 不能明顯增加業務延遲, 自身有問題情況下, 不能影響業務
六、快速實現, 高效部署
1、能夠快速完成架構. 實現和持續迭代
2、能夠面向私有雲的復雜拓撲, 快速部署
05
風控服務的架構
一.風控服務組成
我們的風控服務是由三大子服務組成:
麥哲倫(Magellan)主要包括業務接入(接入層),三大服務引擎(數據查詢,規則執行,模型調用),面向風控團隊的管理平台(服務資源管理, 模型規則管理,生命周期管理,上下線管理,維度數據管理),面向業務方的運營平台(風險事件管理,仿真,風險處置,監控預警,數據查詢和儀表盤,規則清單)。
哥倫布(Columbus)主要面向對業務數據的特征工程,大規模異常檢測和深度學習,知識圖譜,實時特征,離線特征,環境特征以及安全畫像,並對外提供模型可實時調用接口或者模型輸出緩存。
鄭和(Zhenghe)是安全知識倉庫,是面向業務風控和其他安全控制所需的各類安全基礎數據和威脅情報。
風控服務的架構
二.風控 - 部署
利用雲平台能力高效構建和發布:
2.5*4個人月從零開始開發構建上線服務, 並對外提供了基於HTTP/RPC的實時風控和近實時風控以及基於離線數據的離線風控.如何把風控服務在復雜的雲環境部署下去。
我們會在一個主IDC里,部署運營中心和管理平台。這一塊可以快速切換IDC部署,如果這個主IDC有問題, 可以快速切換到另一個IDC。對於真正貼近業務的三大服務引擎,則是基本上所有有受保護的業務的IDC都有進行部署, 以保證業務可以就近訪問, 降低訪問延。
風控服務的架構
三.風控 - 引擎
查詢引擎
1、Magellan子服務的的核心,主要負責進行實時和離線數據批量查詢及聚合
2、構建為參數/特征組合提供給規則引擎, 模型引擎
規則引擎
1、負責進行規則匹配
2、支持自定義執行策略如: 命中退出, 全部執行, 條件退出等
3、支持多種規則類型, 如:評分卡, 決策樹, 決策表, 普通規則等
模型引擎
1、通過查詢引擎查上來的一些參數特征,負責進行特征處理及算法執行,以達到和Columbus子服務的協同, 並服務於規則引擎。
風控服務的架構
四.風控 - 運營
業務如果把風險評估交付給風控,Magellan必須滿足其復雜的運營需求:
一、風控服務
業務風險評估,接入登記,根據場景實施初始規則和模型,逐步迭代。
二、事件查詢/處置/回溯
查詢被識別為風險案例的上下文,特征,模型結果,數據標注等信息.供運營進行案例分析及后續仿真
三、事件監控和報警
業務/風險數據監控看板,智能報警
四、adhoc/Daily數據分析
Adhoc/Daily數據報表,風險數據分析,模型/規則貢獻度分析,仿真效果分析等
五、離線/在線仿真
基於案例庫中的正/反例,結合仿真環境進行模型/策略仿真.利用數據平台進行貢獻度, 線上效果比對等分析。
六、審批上線
規則模型變更及時通知業務方,風控運營團隊,相關業務方,相關負責人確認審批上線。
風控服務的架構
五.風控 - 數據
風控最重要的還是數據。
風控通過Columbus子服務從業務方獲取的海量的近實時或者離線業務數據, 並把數據進行清洗和特征工程,形成基礎數據,這些基礎數據存在HDFS-HBase里面,通過數據分析和機器學習的方法, 產生各類標簽,畫像和模型, 經過安全專家確認, 產出的安全規則和可用的模型緩存。
針對業務數據獲取和處理, 對於實時數據 ,利用Apache Flink構建, 實現圖特征工程, 多維頻次特征工程, 多數據流Complex Event Processing處理, 達到毫秒級延時.
Columbus的多渠道業務數據采集和處理:
1、實時數據:基於Apache Flink
構建: 圖特征工程, 多維頻次特征,多數據流Complex Event Processing,毫秒級延時
2、近實時數據:基於Apache Spark
構建:異常檢測,流式特征工程,,秒級延時
3、離線數據: 基於Apache Spark,Impala/Hive
構建:安全畫像,用戶畫像,全業務數據, 小時/天級延時
五.風控 - 數據
安全畫像
Columbus的安全畫像
對全站業務數據分析和提煉以后
形成海量的多維度標簽刻畫
為風控的每一次處理
豐富上下文場景和實體特征
五.風控 - 數據
Zhenghe安全知識倉庫
Zhenghe系統是安全雲的包括威脅情報在內的基礎安全數據集
1、全網安全數據監測和收集,包括 自采,共享和第三方采購
2、對業務安全而言重點關注 - IP信譽分, IP分類識別, 公共出口識別, 代理IP識別, 手機號信譽分, 虛假小號識別等
3、威脅標記類型210個,涵蓋13個維度,總共記錄數約16億條
IP信譽分
融合愛奇藝內部多個系統的數據
參考第三方數據
綜合衡量一個IP的長期行為
得到一個-100到100的信譽分
風控服務的架構
六.風控 - 平台
Columbus的核心是異常檢測
如果黑產完全和正常用戶一樣的話
其實是達不到獲利的目的的
所以異常檢測對安全來說
也是風控平台的一個基本功能
Columbus主要是通過自研的方式
實現各種異常檢測的功能
在該核心功能的基礎上
構建了整個哥倫布系統的上層架構
實現面向風控Magellan服務的能力
一預處理特征工程-預處理工具
低級特征工程庫:
對數特征,歸一化特征,主成份特征 ...
高級特征工程庫:
FPGrowth關聯特征,k-means距離特征, 多維自動關聯 ...
二、離線檢測
低級異常檢測算法庫:
多種分布模型, 單維度異常檢測 ...
高級的異常檢測算法庫:
基於FPGrowth關聯的多維異常檢測 ...
三、在線監測
流式異常檢測:
基於FPGrowth關聯流式, 基於CEP...
基於時間序列的異常檢測:
基於基線曲線預測, 基於深度學習時間序列
四、基礎工具庫
自動化數據解析,存儲和導入等工具
風控服務的架構
七.設備指紋
對風控而言, 還要提一下其依賴服務: 設備指紋。
風控需要一個好的設備指紋的服務,要讓所有的端都能夠采集設備緯度,形成一個指紋,這個指紋多維簽發的, 而且在雲端會做大量的黑產分析,聯合安全畫像進行沉淀。
因為這些數據都是用戶提供上來的,必須要做一個防偽的檢測,從多維度數據里面查出提供的維度數據矛盾和不真實。
風控服務的架構
八.驗證手段
1、圖文驗證碼
傳統的復雜圖文驗證碼
2、滑動驗證碼
基於滑動的人機行為識別進行驗證
3、上下行短信驗證
發送下行或者上行短信進行驗證
4、基於信任設備的驗證
信任設備可以為其他端進行授權和驗證
5、基於安全盾APP的驗證
安裝愛奇藝安全盾APP可以為其他應用進行
動態口令(OTP), 推送一鍵確認, 掃碼確認
其他: 暫時放行+事后處置,
降級體驗或者權益
A業務標識+B業務攔截
(A業務識別風險以后只做標識畫像,
然后B業務進行攔截,
這樣非常有利於讓黑產無法識破規則策略)
06
風控服務的成果
1、業務覆蓋:
涵蓋帳號, 會員, 活動, 支付, 播放反作弊,
社交, IT, 直播等重要業務
2、服務質量:
日均請求量超24億, 延時5ms以內, 無故障運行
3、柔性風控:
平時重監控, 戰時重對抗. 注重用戶體驗
4、核心亮點:
事前, 事后縱深防御體系,
結合事中跨業務聯防聯控及實時流式異常檢測,
機器撞庫接近100%抑制
在這里重點講一下我們對機器撞庫盜號的防御成果。
會員賬號的安全關系到愛奇藝會員付費戰略的順利實施以及愛奇藝良好口碑的建立。
然而,對於互聯網公司來說,帳號的撞庫風險在登錄、注冊、找密等環節普遍存在。
目前,“黑產”主要通過第三方網站大量泄漏的用戶數據,在這些潛在風險的地方,進行賬號檢存操作,然后通過存在的賬號測試對應密碼檢存;或者尋找無任何防御的登錄接口進行撞庫。賬號與密碼一旦被黑產所獲悉,會員權益有被分享的風險,進而導致愛奇藝會員營收的損失與口碑的下降,甚至由於大量隱私泄露,觸犯最新出台的《網絡安全法》,引起刑事訴訟。
對黑產來說,他們拿到其他網站泄露的賬號(用戶名和密碼),會到愛奇藝這邊做帳號的檢測,檢查帳號在愛奇藝是否存在,是不是會員,如果是會員則就把這個帳號盜取了。
對黑產來說, 撞庫效率是非常關鍵的, 要求用最快的時間檢測最多的賬號。目前黑產已經形成非常完整的產業鏈,有專人負責開發撞庫軟件, 並軟件下發給手上有各種失竊賬號數據的人,這些人利用各種物料(例如撥號器, 代理等)實施檢測,,檢測結果快速匯聚整理,並尋求下游的分享或者售賣。
我們是如何把這個問題解決掉呢?
安全風控服務, 從登錄、注冊、驗證碼等多個風險點的聯防聯控入手,利用流式異常檢測引擎、智能評分卡和多業務數據流復雜事件關聯等結合進行實時對抗,以期從根本上解決賬號大規模泄露的風險。
這個問題的解決的難點在哪里呢?
黑產手上的IP非常多, 包括各種代理和動態撥號獲取的IP,其構建的檢測請求的客戶端特征也可以進行快速的偽造,機器撞庫根本上是追求低成本高效率,也就是一個IP在被風控識別出為撞庫源之前完成盡可能多的撞庫請求,這也要求在1s內盡可能完成更多的撞庫請求,這還包括了驗證碼的告破解率。
因此,面對快速多變的對手, 依賴拍腦袋的高頻閾值控制是很容易被黑產繞過的。對風控而言, 主要是解決三點:
1、使用流式檢測手段,盡可能快的識別出物料維度(例如IP等)+客戶端多維特征的異常組合, 這些異常組合能夠盡快的進入到攔截標注集中發揮作用,在失效之前對后續同一組合的請求導入到驗證階段,這個依賴於我們的大規模流式異常檢測的能力。
2、利用穩定的攻擊行為特征(客戶端多維特征)加上安全畫像刻畫物料(例如IP等)的歷史行為特征協同驗證階段的行為特征進行組合拼接,從而形成大量的臨時拼接標注,並進入到攔截標注集中發揮作用,在失效之前對后續同一組合的請求導入到驗證階段,這非常有利於我們預測黑產的一個新的維度組合從而快速攔截。
3、命中的檢出攔截標注或者臨時拼接標注會進入到安全畫像分析出物料維度(例如IP等)的歷史行為特征以及歸納出穩定的攻擊行為特征(多維特征組合),用於后續持續臨時拼接, 這個依賴於安全畫像服務。
從整個對抗的成果來看,共實時攔截黑產撞庫請求超過2億次,從我們自己的監控來看從2017年4月中旬開始,數每日撞庫成功的賬號數目降至個位,此外,從各大社交網站輿情監控來, 用戶反饋被盜號的情況也基本上消失。
機器撞庫盜號攻擊基本消失
07
風控服務心得
擁抱業務:安全只有擁抱業務才能體現價值
雲端結合:立足於雲,服務為雲,結合與端
精細運營:業務安全需要持續運營
協同聯動:多點多層次跨業務防御
二八原則:優先解決主要風險
數據驅動:充分挖掘數據價值
本文作者:愛奇藝科學家Frank
本文為安全脈搏專欄作者發布,轉載請注明:https://www.secpulse.com/archives/61750.html