反作弊基本概念與機器學習的應用(1)

本文轉載自查看原文 2016-10-20 22:17 9548 機器學習/ 反作弊

反作弊主要業務流程：

常見作弊方式：

機器作弊：機器刷量、任務分發、流量劫持

人為作弊：QQ群/水軍、直接人工、誘導

常見作弊手段：

電商：刷單，刷信譽，刷好評，職業差評師

支付平台：洗錢，詐騙

廣告：數據造假、刷流量（引流—廣告展示—廣告點擊—轉化）

自媒體、社交軟件：刷粉絲、刷點擊、閱讀量

搜索：seo使用作弊手段刷排名（案例：2015蜻蜓FM “普羅米修斯”、“宙斯”函數，修改轉化量、流量在前端展現欺騙投資人，被對手反編譯識破）

廣告作弊涉及的點擊類型分類：

1、按照是否找商品找服務為目的

2、是否按照是否惡意，有無真實轉化為依據

（CPC基於點擊計費的模式、CPA基於成交的點擊進行收費）

點擊四大分類：

無效點擊（沒有形成轉化的意願，僅僅瀏覽）

惡意點擊（必須識別出來）

轉化點擊（真實意願點擊）

誤點（不是以找商品為目的，例如內部人員點擊，需要識別出來）

人群划分：

誤點：員工、廣告主自己、競品銷售中介、爬蟲

惡意點擊：同行、同行朋友、聯盟站點、機器

反作弊策略應對框架：

數據層：鼠標軌跡行為、指紋數據、案例庫、行為數據

特征層：離散指標、連續指標

行為識別層：點擊識別模型、異常監測模型、流量識別模型、關系圖模型、人群識別模型

策略應對層：規則

三層監控指標體系，提前預警：

運營指標監控：投訴率、轉化率、撞線速率/頻率、消耗速率、通過率

規則監控指標：攔截率、准確率、覆蓋率

異常監控指標：IP維度、Cookie維度、計費名維度、廣告維度、設備維度、鼠標軌跡維度

分類監控、分級響應：

1、針對監控情況、采用四級響應機制；

2、紅色：非常嚴重，需要自動化采取短期策略應對，例如臨時黑名單機制

3、橙色：較為嚴重，短信舉報，要求4h內完成分析和短平快策略壓制，后續進一步處理

機器學習在反作弊應用幾個案例：

如關聯規則、決策樹模型：策略挖掘—規則自動提取

確定建模問題：自動發現規則、輔助策略設計；

應用：挖出的規則，上線到離線反作弊系統

評估指標：支持度、置信度、覆蓋率、攔截率

流量聚類分級模型，kmeans算法：異常行為識別—流量識別

作用：支持流量分級打折策略

例如分為以下類別，特征描述：

1、主要為品牌瀏覽器入口，轉化效果較好，用戶粘性較高；

2、電話轉化很好，包括搜索行為、點擊行為、轉化行為都較好；

3、電話轉化良好，沒有明顯的特征異常；

4、電話轉化率略偏低，詳情頁其它點擊行為略偏少；

5、詳情頁停留時間短，轉化效果特別差；

6、電話轉化很好，無其它任何轉化行為，專門點擊商業廣告，行為非常異常；

7、點擊率高，無轉化，行為非常異常.

如半監督或圖算法：異常行為識別—基於關系發現：

作弊用戶標簽比較少，如何召回更多的數量？

借助半監督或圖算法發現更多的異常用戶·

SVM算法：異常行為識別—銷售識別

作用：識別用戶是否銷售

數據來源：行為日志，聊天記錄

懲罰系數C，選擇RBF函數作為kernel的參數gamma的選擇.

粗粒度搜索：

　　對大數據集，先選擇一個較小的子集做粗粒度搜索；

　　選擇較大的步長，找到一個最優的（c,g）局部區域.

細粒度搜索：

在局部區域，以較小的步長，找到全局最優的（c,g）

如圖論與余弦距離：搜索引擎防作弊

圖論：作弊的網站一般需要相互鏈接，以提高自己的排名，這樣在互聯網大圖中形成一些Clique.圖論中有專門發現Clique的方法.

余弦距離：那些賣鏈接的網站，都有大量的出鏈（這些出鏈的特點和不作弊的網站出鏈特點大不相同）.每一個網站到其他網站的出鏈數目可以作為一個向量，計算余弦距離.發現，有些網站的出鏈向量之間的余弦距離幾乎為1.一般來講這些網站通常是一個人建的，目的只有一個:賣鏈接.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習入門之一：基本概念機器學習基本概念和模型訓練基本問題 python機器學習基本概念快速入門機器學習基本概念,常用經典模型機器學習基本概念：batch_size、epoch、 iteration 反作弊 Weka中數據挖掘與機器學習系列之基本概念（三）機器學習（二）概念學習機器學習之概念漂移-concept drift 機器學習導圖系列（2）：概念