CTR校准


通常我們在做CTR預估的時候,預估值會與真是的CTR有偏差,這種偏差可能來自於負采樣,可能是因為模型的問題。

CTR預估值與真實值有偏差,並不會影響AUC指標和排序,但是實際使用中往往需要CTR的預估值不僅僅是做到有序,即正樣本排在負樣本前面,而且需要保證有一定的區分度。這涉及到一個概念保序和保距。

假設我們有這么一個序列 牛 500KG,羊100KG,兔子 5kg,我們有一個模型,輸入這些動物之后,根據體重排序,並且出一個體重的預估值。

我們模型如果只是采用AUC這個指標的話,那么我們模型輸出 牛 100kg  羊 20 kg, 兔子1kg,這樣的結果AUC是沒問題的,但是這只是做到了保序,但是他們之間的差值變小了,沒有做到保距。

在實際業務中,比如我們有這么一些廣告,A的實際點擊率是10%,B的實際點擊率是5%,C的實際點擊率是1%,但是A B C的點擊收益分別是2,5,10,如果我們的模型沒有做到保距,那么輸出的預估值是5%,1%,0.5%,這樣的話AUC的排序指標是滿足了,但是實際收益並不是最優的。

因此需要對CTR進行校准,是的CTR距離真實值越近越好。

 

對於CTR校准的方法,我了解的大概有這么兩種,一種是基於負采樣的采用比例來進行校准,參考的論文是14年facebook的論文《Practical Lessons from Predicting Clicks on Ads at Facebook》

其中P是預估值,q是校准后的值,w是負樣本的采樣比例

推導的方式,就是假設p擬合的是采樣后的訓練集的點擊率,q是未抽樣前的數據集的點擊率,然后根據對應關系可以推導。

如果是邏輯回歸其實也可以推導出是對偏置項的一個修正。

另外一個是保序回歸,保序回歸

關於保序回歸的具體做法可以參考這篇文章http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2015/12/15/model-calibration-for-logistic-regression-in-rare-events-data

 

實驗的結果: 兩種CTR校准的方式對於AUC都沒有影響,保序回歸的話存在的問題是分桶數量的設置,要保證每個桶的真是CTR是可信的。對於負采樣兩種都能夠比較好的將預估值校准到真實值。不過具體線上效果如何還沒有測試。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM