負樣本采樣及bias校准、ctr平滑

本文轉載自查看原文 2019-05-06 15:18 1545 計算廣告

在CTR預估中，負樣本采樣是一種常見的特征工程方法。一般CTR預估的原始正負樣本比可能達到1:1000~1:10000左右，而要獲取好的效果，一般需要采樣到1:5~1:15之間（VC維可推導）。

我們詳細分析采樣對於pCTR的影響。

設采樣前CTR為 ,采樣后CTR為 ,正樣本數為 ,負樣本數為 ,正樣本采樣概率為 ,負樣本采樣概率為，其中 $n=m/l$。

$ p = \frac{a}{a + b}$

$p' = \frac{la}{la + mb} = \frac{a}{(a + nb)} $

兩者化簡得到：$p = \frac{p'}{p' + (1 - p') / n}$

注意 $p$為我們希望得到的校准后概率；但由於我們用采樣的數據進行訓練，模型計算出的pCTR實際為校准前概率$p'$ 。

可以看到，負采樣之后的pCTR值會被高估【$p' + (1-p')/n > 1$】。這對於一般的CTR排序影響不大，但對於DSP這類有強烈的保距需求的場景，需要將pCTR校准回對采樣前的估計。

對於LR、FM等用logistics function做處理的模型，可以得到

$p' = \frac{p}{n + p -np} = \frac{1}{1 + e^{-(w^Tx + b)}}$

兩者化簡可得

因此可以計算出校准后的bias: $b' = b + log(n)$

伯努利試驗（Bernoulli experiment）是在同樣的條件下重復地、相互獨立地進行的一種隨機試驗，其特點是該隨機試驗只有兩種可能結果：發生或者不發生。

二項分布：重復n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果，而且兩種結果發生與否互相對立，並且相互獨立，與其它各次試驗結果無關，事件發生與否的概率在每一次獨立試驗中都保持不變，則這一系列試驗總稱為n重伯努利實驗，當試驗次數為1時，二項分布服從0-1分布。

二項分布概率：

beta分布：beta分布可以看作一個概率的概率分布，當你不知道一個東西的具體概率是多少時，它可以給出了所有概率出現的可能性大小。beta分布的定義域是(0,1)，與概率的范圍是一致的。它有兩個正值參數，稱為形狀參數，一般用$\alpha$ 和 $\beta$表示。

Beta分布的均值是：

方差是：

以后再看吧～～～

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 CTR校准負樣本的理解機器學習中的正/負樣本自然語言處理中的負樣本挖掘通俗易懂的word2Vec負采樣理解 Word2vec模型及負采樣精講 word2vec （CBOW、分層softmax、負采樣） CTR預估中的貝葉斯平滑方法（一）原理及實驗介紹大數據量樣本隨機采樣-蓄水池算法 CTR預估（1）--CTR基礎