對風控的理解


最近一直關注風控方向的知識和業務,我做下總結吧!

1. 技術篇

     機器學習算法(這個是最多的,要明白每個模型的優缺點,適用范圍,對模型本身要理解透徹)

     深度學習算法:GAN,遷移學習,強化學習等新的技術

 

2. 基本理解

  (1)風控的定義:風控就是風險控制

          主要分為2大方向:信用風控(打分,芝麻分之類);反舞弊風控(很多黑產活躍在互聯網上,你就要通過風控和壞人做對抗;這個對抗不能只停留在防御上,更多的要站在壞人的角度去思索他們是怎么欺詐的,怎么獲取利益的)

          風險行為的定義:

                      賬戶安全問題:盜卡,盜余額支付

                      商家刷單:帥排名,刷銷量,刷好評

                      用戶作弊:”薅羊毛“,也就是獲取一些優惠卷(通過反復注冊新用戶等行為)

     (2)風控的特性

    高對抗性:要24小時防御;因為有組織的找平台bug進行盜卡,或者是盜號這樣的太多了。

     准確性:2個要素准確性和召回率(我們關注的是異常樣本,寧可錯殺100也不放過一個???其實這個准確度也很重要,把好的用戶判別成壞的用戶會遭到用戶的投訴之類,不划算啊)

                 靈活性:人工對抗不合理,最好我們設計出的模型或者產品可以實現誰是監督,隨時修改,實現一個自我判斷學習的過程!

 

3.風控的整體架構  

     

風控的整體架構可以分為三個大的系統:

  1. 實時風控;
  2. 准實時風控;
  3. 離線風控。

區分的標准是根據策略的速度:

  • 實時風控:舉個例子美團的實時風控要求必須為毫秒級同步返回,用戶下單時必須要實時監控同步調用,每天億級的調用量就要求每次調用不可以是秒級別。
  • 准實時風控:一般來講幾秒甚至幾分鍾以內返回都可以,因為采用的是異步調用事后處理,這種方式計算的數據量和可利用的數據量資源比實時風控會多很多。
  • 離線風控:一般通過 ETL 來做。

如圖所示第二層是策略系統。策略系統時風控的核心系統,包含着規則、管理以及監控的功能。

策略系統在設計的過程中,最關鍵的是:

  1. 配置是否方便快捷,策略能不能夠快速上線是決定性的要素。因為我們一般在上線之前,首先需要灰度測試→人工處理→機器處理,因此要去策略系統配置一定要方便快捷。
  2. 規則引擎性能要高。

最下面一層是特征庫,具備黑白名單、統計數據以及特征數據等功能。特種庫對於系統的性能應該是最重要的,因為億級體量的數據量是十分龐大的,因此在設計時要用到一些大數據框架。

圖中左側的處理系統即統一的處罰系統,無論是對商家還是用戶的處罰都會歸到這個處罰系統中;右側主要是一些公共組建,包含過載保護、報表、監控報警等等功能。這就是一個完整的風控架構。

 4.風控模型策略

1. 異常檢測

可以簡單分為三種:

  1. 基於數據統計,例如同一個 IP 登陸成功率非常高,這是有風險的信號,背后可能意味着是同一伙人,100 個人不可能說一次性都能輸對密碼,違反常理;同樣的,登錄成功率非常低的,可能就是暴力破解、撞庫。基於數據統計,可以找到異常特征。
  2. 聚類,聚類完成之后會有離群點,離群點即可判斷為異常。
  3. 孤立森林,這個方法在異常檢測領域效果最好,它的理論是將一個人的所有行為想象成一棵樹,在某些分支上與其他分支出現了強不同,則該分支出現了問題。例如你同一台設備同一個 IP,導致你的行為都是類似的;但有的人同一個 IP 多台設備,很容易被這種方法捕捉到異常。

2. 知識圖譜

如圖所示,知識圖譜即多對多的關系,舉登錄的例子,設備 ID 與 登錄 ID 未必是一對一的關系,同一台設備可以有多個人登錄,同一個登錄 ID 又可以在多個設備上登錄,但重要的是一個人無法同時登錄 N 個設備,同樣 N 個設備也不可能被 N 個人登錄,因此很容易捉到異常。

3. 用戶畫像

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM