CTR預估中的貝葉斯平滑方法(一)原理及實驗介紹


1. 背景介紹

廣告形式:
互聯網廣告可以分為以下三種:
1)展示廣告(display ad)
2)搜索廣告(sponsored search ad)
3)上下文廣告(contextual ad)
 
競價模式:
對於在線廣告,主要有以下幾種競價模式:
1)pay-per-impression(按展示付費):廣告商按照廣告被展示的次數付費,這是一種最普遍的競價模型。缺點在於沒有考慮投放廣告的效果。
2)pay-per-action(按行為付費):只有在廣告產生了銷售或者類似的一些轉化時,廣告商才付費。缺點在於追蹤用戶的交易行為相對比較困難。
3)pay-per-click(按用戶點擊付費):根據用戶是否會點擊廣告來付費。這時候就需要對廣告的點擊率(CTR)進行精確的預估。
 
遇到的困難:
由於數據的稀疏性,對廣告進行CTR預估是比較具有挑戰性的,預估出來的CTR的可靠性不高,且具有較大的方差。主要有以下兩類場景:
1)當廣告的展示次數較少的時候,對其直接進行CTR的統計計算會導致一個偏高的結果。比如某個廣告只展示了1次,被點擊了1次,則純粹的統計CTR=1.0,這顯然是過分高估了。
2)當廣告的展示次數很大,但點擊次數很少或幾乎沒有的時候,對其直接進行CTR的統計計算會導致一個偏低的結果。比如某個廣告沒有被點擊過,則純粹的統計CTR=0.0,這顯然是過分低估了。
 

2. 數據的層級結構

在許多場景下,數據是很自然地存在層級結構,或者可以通過數據的聚類的方式得到層級結構的。如下圖所示,是雅虎網站的網頁層級結構示意圖:

我們假設事件的發生並不是相互獨立的,相反,在層級結構中相對比較靠近的兩個事件的相關性要大於距離較遠的兩個事件,它們之間擁有很多共通之處。於是,我們便可以利用“相似”事件的信息來豐富某個我們感興趣的事件(這個事件本事的發生的次數比較少)。具體到我們現有的場景下,可以利用與我們需要預估的事件(比如query-ad pair,或者page-ad pair)的“相似”事件的信息來幫助我們來做出預估計算。

假設有相同account下的N個ad,以及所在的page,我們感興趣的是page-ad pair的CTR,於是我們可以利用貝葉斯的方法來結合(1)這個ad本身的信息,以及(2)該page下與這個ad來自相同account的其它ad的信息。我們觀測到的點擊信息為,這些點擊信息源自各個ad的隱含CTR信息,點擊信息服從二項分布。而隱含的每個ad的CTR,可以看做是來自於它們相同的account的公有信息,其服從貝塔分布。於是乎,每個ad的隱含CTR值,不僅與觀測到的展示點擊數據有關,還與其所屬的account的整體信息有關,即與這對超參數有關。我們可以利用二項分布和貝塔分布的共軛特性,計算所有ad所屬的相同account的似然函數,然后利用最大似然估計(MLE)來計算超參數。當有了的估計值后,我們便可以得到每個ad的后驗估計:。這個后驗估計值可以作為一個平滑后的CTR值,它要比單純地統計CTR擁有更小的方差,更加穩定。

 

3. 數據的連續性

在很多場景下,我們更關心CTR的趨勢,而不是一個特定時間點的CTR值。因為對於展示量較少的page-ad pair,某個特定時間點的CTR預估值是包含很大噪聲的。我們將展現和點擊看做是離散集合的重復觀測值,然后使用指數平滑技術進行CTR平滑。

假設對於page-ad pair,我們有M天的展現和點擊,然后我們希望預估出第M天的CTR。我們將平滑后的展現和點擊記為,它們可由下面公式得到(這里只給出了點擊的公式計算,展現也同理):

其中,是平滑系數,它控制着我們把歷史信息納入我們平滑的計算中的權重大小。

 

 上述的兩種方法:(1)數據層級結構的貝葉斯平滑,(2)時間窗口的指數平滑,可以結合使用。

 

4. 數據層級結構的貝葉斯平滑方法具體介紹

這里我們規定將page-ad pair的信息在層級結構上上升到publisher-account pair的信息(不同page隸屬於相同的publisher,不同的ad隸屬於相同的account)。

有兩個假設:

(1)對於publisher-account pair,有1個隱含的CTR概率分布,而每個page-ad pair的CTR可以看作是從這個整體的CTR分布中隨機采樣出來的。

(2)對於page-ad pair,我們觀測到其對應的展現信息和點擊信息。

其對應的概率圖模型如下,灰色部分是觀測變量,白色部分是隱含變量:

對於該publisher-account下的所有page-ad pair的點擊計算出似然函數:

將上述的log似然函數分別對αβ求導數,即為:

 

通過fixed-point iteration方法,我們可以得到α和β在每一輪迭代中的更新公式:

迭代的終止條件為一個固定的迭代次數(如1000次),或者α和β在一次迭代中的變化值都小於一個epsilon(如1E-10)。一旦有了的估計值后,我們便可以得到每個ad的后驗估計:

 

5. 貝葉斯參數估計

這里簡單介紹一下為什么有了的估計值后,便可以得到后驗估計:

我們知道貝葉斯參數估計的基本過程是:先驗分布 + 似然函數 = 后驗分布

由於我們假定了先驗分布是Beta分布,而似然函數是二項分布,由Beta-Binomial共軛,我們可以得到,后驗分布也是Beta分布,如下:

Beta(p|a,b) + BinomCount(m1,m2) = Beta(p|a+m1,b+m2)

這種共軛形式的好處是,我們能夠在先驗分布中賦予參數很明顯的物理意義,這個物理意義可以延續到后驗分布中進行解釋,同時從先驗分布變換到后驗分布過程中從數據中補充的知識也容易有物理解釋。

在我們這里,先驗分布是服從Beta(α,β)分布的,而通過似然函數BinomCount(C,I-C)后,后驗分布變為Beta(α+C,β+I-C)。

對這個后驗分布,我們有兩種參數估計方法:

1)MAP估計:直接看后驗分布Beta(α+C,β+I-C)取值最大時候的參數,這時候為:(α+C-1) / (α+β+I-2)。

2)貝葉斯估計:對服從后驗分布Beta(α+C,β+I-C)的變量求數學期望,這時候為:(α+C) / (α+β+I)。

數學期望的計算過程如下所示:

 

6. 實驗介紹

評估指標:

1)MSE

2)KL_divergence

實驗策略:

選取展示數不低於10000次的page-ad pair作為實驗數據集,從中采樣1% / 0.1% / 0.001% 用於預測page-ad ctr,剩余99%  / 99.9% / 99.99% 的數據集用於對預測值進行評估。

 

PS:具體如何對貝葉斯平滑的參數進行估計,以及具體的代碼實現,可見另一篇博客http://www.cnblogs.com/bentuwuying/p/6498370.html

 

7. 參考文獻

1. Click-Through Rate Estimation for Rare Events in Online Advertising

 

版權聲明:

   本文由笨兔勿應所有,發布於http://www.cnblogs.com/bentuwuying。如果轉載,請注明出處,在未經作者同意下將本文用於商業用途,將追究其法律責任。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM