反作弊主要業務流程:
常見作弊方式:
機器作弊:機器刷量、任務分發、流量劫持
人為作弊:QQ群/水軍、直接人工、誘導
常見作弊手段:
電商:刷單,刷信譽,刷好評,職業差評師
支付平台:洗錢,詐騙
廣告:數據造假、刷流量 (引流—廣告展示—廣告點擊—轉化)
自媒體、社交軟件:刷粉絲、刷點擊、閱讀量
搜索:seo使用作弊手段刷排名(案例:2015蜻蜓FM “普羅米修斯”、“宙斯”函數,修改轉化量、流量在前端展現欺騙投資人,被對手反編譯識破)
廣告作弊涉及的點擊類型分類:
1、 按照是否找商品找服務為目的
2、 是否按照是否惡意,有無真實轉化為依據
(CPC基於點擊計費的模式、CPA基於成交的點擊進行收費)
點擊四大分類:
無效點擊(沒有形成轉化的意願,僅僅瀏覽)
惡意點擊(必須識別出來)
轉化點擊(真實意願點擊)
誤點(不是以找商品為目的,例如內部人員點擊,需要識別出來)
人群划分:
誤點:員工、廣告主自己、競品銷售中介、爬蟲
惡意點擊:同行、同行朋友、聯盟站點、機器
反作弊策略應對框架:
數據層:鼠標軌跡行為、指紋數據、案例庫、行為數據
特征層:離散指標、連續指標
行為識別層:點擊識別模型、異常監測模型、流量識別模型、關系圖模型、人群識別模型
策略應對層:規則
三層監控指標體系,提前預警:
運營指標監控:投訴率、轉化率、撞線速率/頻率、消耗速率、通過率
規則監控指標:攔截率、准確率、覆蓋率
異常監控指標:IP維度、Cookie維度、計費名維度、廣告維度、設備維度、鼠標軌跡維度
分類監控、分級響應:
1、 針對監控情況、采用四級響應機制;
2、 紅色:非常嚴重,需要自動化采取短期策略應對,例如臨時黑名單機制
3、 橙色:較為嚴重,短信舉報,要求4h內完成分析和短平快策略壓制,后續進一步處理
機器學習在反作弊應用幾個案例:
如關聯規則、決策樹模型:策略挖掘—規則自動提取
確定建模問題:自動發現規則、輔助策略設計;
應用:挖出的規則,上線到離線反作弊系統
評估指標:支持度、置信度、覆蓋率、攔截率
流量聚類分級模型,kmeans算法:異常行為識別—流量識別
作用:支持流量分級打折策略
例如分為以下類別,特征描述:
1、 主要為品牌瀏覽器入口,轉化效果較好,用戶粘性較高;
2、 電話轉化很好,包括搜索行為、點擊行為、轉化行為都較好;
3、 電話轉化良好,沒有明顯的特征異常;
4、 電話轉化率略偏低,詳情頁其它點擊行為略偏少;
5、 詳情頁停留時間短,轉化效果特別差;
6、 電話轉化很好,無其它任何轉化行為,專門點擊商業廣告,行為非常異常;
7、 點擊率高,無轉化,行為非常異常.
如半監督或圖算法:異常行為識別—基於關系發現:
作弊用戶標簽比較少,如何召回更多的數量?
借助半監督或圖算法發現更多的異常用戶·
SVM算法:異常行為識別—銷售識別
作用:識別用戶是否銷售
數據來源:行為日志,聊天記錄
懲罰系數C,選擇RBF函數作為kernel的參數gamma的選擇.
粗粒度搜索:
對大數據集,先選擇一個較小的子集做粗粒度搜索;
選擇較大的步長,找到一個最優的(c,g)局部區域.
細粒度搜索:
在局部區域,以較小的步長,找到全局最優的(c,g)
如圖論與余弦距離:搜索引擎防作弊
圖論:作弊的網站一般需要相互鏈接,以提高自己的排名,這樣在互聯網大圖中形成一些Clique.圖論中有專門發現Clique的方法.
余弦距離:那些賣鏈接的網站,都有大量的出鏈(這些出鏈的特點和不作弊的網站出鏈特點大不相同).每一個網站到其他網站的出鏈數目可以作為一個向量,計算余弦距離.發現,有些網站的出鏈向量之間的余弦距離幾乎為1.一般來講這些網站通常是一個人建的,目的只有一個:賣鏈接.