負樣本采樣及bias校准、ctr平滑


參考:https://zhuanlan.zhihu.com/p/31529643

 

在CTR預估中,負樣本采樣是一種常見的特征工程方法。一般CTR預估的原始正負樣本比可能達到1:1000~1:10000左右,而要獲取好的效果,一般需要采樣到1:5~1:15之間(VC維可推導)。

我們詳細分析采樣對於pCTR的影響。

設采樣前CTR為 p ,采樣后CTR為 p' ,正樣本數為 a ,負樣本數為 b ,正樣本采樣概率為 l ,負樣本采樣概率為 m,其中 $n=m/l$。

$ p = \frac{a}{a + b}$

$p' = \frac{la}{la + mb} = \frac{a}{(a + nb)} $

兩者化簡得到:$p = \frac{p'}{p' + (1 - p') / n}$

注意 $p$為我們希望得到的校准后概率;但由於我們用采樣的數據進行訓練,模型計算出的pCTR實際為校准前概率$p'$ 。

可以看到,負采樣之后的pCTR值會被高估【$p' + (1-p')/n > 1$】。這對於一般的CTR排序影響不大,但對於DSP這類有強烈的保距需求的場景,需要將pCTR校准回對采樣前的估計。

對於LR、FM等用logistics function做處理的模型,可以得到

$p' = \frac{p}{n + p -np} = \frac{1}{1 + e^{-(w^Tx + b)}}$

兩者化簡可得

因此可以計算出校准后的bias: $b' = b + log(n)$

 


參考: http://d0evi1.com/ctr-smooth/    http://www.flickering.cn/%E6%95%B0%E5%AD%A6%E4%B9%8B%E7%BE%8E/2014/06/lda%E6%95%B0%E5%AD%A6%E5%85%AB%E5%8D%A6%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%83/

伯努利試驗(Bernoulli experiment)是在同樣的條件下重復地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生。

二項分布:重復n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分布服從0-1分布。

二項分布概率:

beta分布:beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。beta分布的定義域是(0,1),與概率的范圍是一致的。它有兩個正值參數,稱為形狀參數,一般用$\alpha$ 和 $\beta$表示。

Beta分布的均值是:

方差是:

https://jiayi797.github.io/2017/07/09/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0%E4%B9%8B%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%B9%B3%E6%BB%91/

 

以后再看吧~~~

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM