參考:https://zhuanlan.zhihu.com/p/31529643
在CTR預估中,負樣本采樣是一種常見的特征工程方法。一般CTR預估的原始正負樣本比可能達到1:1000~1:10000左右,而要獲取好的效果,一般需要采樣到1:5~1:15之間(VC維可推導)。
我們詳細分析采樣對於pCTR的影響。
設采樣前CTR為 ,采樣后CTR為
,正樣本數為
,負樣本數為
,正樣本采樣概率為
,負樣本采樣概率為
,其中 $n=m/l$。
$ p = \frac{a}{a + b}$
$p' = \frac{la}{la + mb} = \frac{a}{(a + nb)} $
兩者化簡得到:$p = \frac{p'}{p' + (1 - p') / n}$
注意 $p$為我們希望得到的校准后概率;但由於我們用采樣的數據進行訓練,模型計算出的pCTR實際為校准前概率$p'$ 。
可以看到,負采樣之后的pCTR值會被高估【$p' + (1-p')/n > 1$】。這對於一般的CTR排序影響不大,但對於DSP這類有強烈的保距需求的場景,需要將pCTR校准回對采樣前的估計。
對於LR、FM等用logistics function做處理的模型,可以得到
$p' = \frac{p}{n + p -np} = \frac{1}{1 + e^{-(w^Tx + b)}}$
兩者化簡可得
因此可以計算出校准后的bias: $b' = b + log(n)$
參考: http://d0evi1.com/ctr-smooth/ http://www.flickering.cn/%E6%95%B0%E5%AD%A6%E4%B9%8B%E7%BE%8E/2014/06/lda%E6%95%B0%E5%AD%A6%E5%85%AB%E5%8D%A6%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%83/
伯努利試驗(Bernoulli experiment)是在同樣的條件下重復地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生。
二項分布:重復n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分布服從0-1分布。
二項分布概率:
beta分布:beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。beta分布的定義域是(0,1),與概率的范圍是一致的。它有兩個正值參數,稱為形狀參數,一般用$\alpha$ 和 $\beta$表示。
Beta分布的均值是:
方差是:
以后再看吧~~~