反作弊基本概念與機器學習的應用(1)


反作弊主要業務流程:

 

常見作弊方式:

機器作弊:機器刷量、任務分發、流量劫持

人為作弊:QQ群/水軍、直接人工、誘導

 

常見作弊手段:

電商:刷單,刷信譽,刷好評,職業差評師

支付平台:洗錢,詐騙

廣告:數據造假、刷流量 (引流—廣告展示—廣告點擊—轉化)

自媒體、社交軟件:刷粉絲、刷點擊、閱讀量

搜索:seo使用作弊手段刷排名(案例:2015蜻蜓FM “普羅米修斯”、“宙斯”函數,修改轉化量、流量在前端展現欺騙投資人,被對手反編譯識破)

 

廣告作弊涉及的點擊類型分類:

1、  按照是否找商品找服務為目的

2、  是否按照是否惡意,有無真實轉化為依據

(CPC基於點擊計費的模式、CPA基於成交的點擊進行收費)

 

點擊四大分類:

無效點擊(沒有形成轉化的意願,僅僅瀏覽)

惡意點擊(必須識別出來)

轉化點擊(真實意願點擊)

誤點(不是以找商品為目的,例如內部人員點擊,需要識別出來)

 

人群划分:

誤點:員工、廣告主自己、競品銷售中介、爬蟲

惡意點擊:同行、同行朋友、聯盟站點、機器

 

反作弊策略應對框架:

數據層:鼠標軌跡行為、指紋數據、案例庫、行為數據

特征層:離散指標、連續指標

行為識別層:點擊識別模型、異常監測模型、流量識別模型、關系圖模型、人群識別模型

策略應對層:規則

 

三層監控指標體系,提前預警:

運營指標監控:投訴率、轉化率、撞線速率/頻率、消耗速率、通過率

規則監控指標:攔截率、准確率、覆蓋率

異常監控指標:IP維度、Cookie維度、計費名維度、廣告維度、設備維度、鼠標軌跡維度

 

分類監控、分級響應:

1、  針對監控情況、采用四級響應機制;

2、  紅色:非常嚴重,需要自動化采取短期策略應對,例如臨時黑名單機制

3、  橙色:較為嚴重,短信舉報,要求4h內完成分析和短平快策略壓制,后續進一步處理

 

機器學習在反作弊應用幾個案例:

如關聯規則、決策樹模型:策略挖掘—規則自動提取

確定建模問題:自動發現規則、輔助策略設計;

應用:挖出的規則,上線到離線反作弊系統

評估指標:支持度、置信度、覆蓋率、攔截率

 

流量聚類分級模型,kmeans算法:異常行為識別—流量識別

作用:支持流量分級打折策略

例如分為以下類別,特征描述:

1、  主要為品牌瀏覽器入口,轉化效果較好,用戶粘性較高;

2、  電話轉化很好,包括搜索行為、點擊行為、轉化行為都較好;

3、  電話轉化良好,沒有明顯的特征異常;

4、  電話轉化率略偏低,詳情頁其它點擊行為略偏少;

5、  詳情頁停留時間短,轉化效果特別差;

6、  電話轉化很好,無其它任何轉化行為,專門點擊商業廣告,行為非常異常;

7、  點擊率高,無轉化,行為非常異常.

 

如半監督或圖算法:異常行為識別—基於關系發現:

作弊用戶標簽比較少,如何召回更多的數量?

借助半監督或圖算法發現更多的異常用戶·

 

SVM算法:異常行為識別—銷售識別

作用:識別用戶是否銷售

數據來源:行為日志,聊天記錄

懲罰系數C,選擇RBF函數作為kernel的參數gamma的選擇.

粗粒度搜索:

  對大數據集,先選擇一個較小的子集做粗粒度搜索;

  選擇較大的步長,找到一個最優的(c,g)局部區域.

細粒度搜索:

       在局部區域,以較小的步長,找到全局最優的(c,g)

 

如圖論與余弦距離:搜索引擎防作弊

圖論:作弊的網站一般需要相互鏈接,以提高自己的排名,這樣在互聯網大圖中形成一些Clique.圖論中有專門發現Clique的方法.

余弦距離:那些賣鏈接的網站,都有大量的出鏈(這些出鏈的特點和不作弊的網站出鏈特點大不相同).每一個網站到其他網站的出鏈數目可以作為一個向量,計算余弦距離.發現,有些網站的出鏈向量之間的余弦距離幾乎為1.一般來講這些網站通常是一個人建的,目的只有一個:賣鏈接.

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM