1、評價指標體系
1)logloss:評價點擊率預測的准確性
計算公式:

對於ctr計算來說:

最后化簡可以成為:

最后的計算代碼:

這樣的計算代碼中在使用log計算時pctr[i]中的必須判斷是否為0,否則出現無窮的情況;
2)AUC指標
使用二分類舉例:
首先根據分類結果統計一個混淆矩陣:

舉例:

二分類的評價指標:

預測准確率表示:在預測值中為1的預測的准確率
召回率表示:真實值為1的預測正確的比例
正確率:整個預測的正確率1預測1 + 0預測0 /全部;
ROC圖:越靠近左上部分的分類效果就越好;以FP Rate為橫坐標, TP Rate為縱坐標;

ctr 預估是一個二分類問題,可以根據ctr的預測設置閾值然后統計FP Rate和 TP Rate,然后根據這兩個值畫出ROC曲線:

為了避免閾值對分類器結果造成影響,引入AUC進行評價;
AUC:area under curve:



線上指標:

對於線上指標,cpm要漲,但是cpc要維持穩定;

上線需要根據具體的要求進行調整,看看是依靠點擊率還是依靠點擊單價進行;
2、評估系統

廣告請求到來后,進行ctr預估系統,系統從廣告庫中選擇廣告進行ctr預估,產生點擊率預估值;預估的流程:

首先對數據進行預處理,通過對廣告設置埋點,一旦廣告被點擊生成唯一的urlId進入點擊日志系統與展示日志進行匹配完成一次點擊統計,由於樣本庫巨大需呀對其進行采樣,對於點擊率來說大多數的結果都是很小也就是一個負樣本,因此需要對其進行負采樣,這樣做的目的就在於減少訓練數據的規模,同時還可以增加正樣本的比例,使得AUC還會增加也就是分類器的效果更好。
然后進行特征工程,對特征進行篩選,選擇出有用的特征或者對特征進行處理;
3、項目介紹

