CTR預估中的貝葉斯平滑方法（一）原理及實驗介紹

本文轉載自查看原文 2017-02-11 15:26 15257 Data Hierarchies/ MLE/ EM/ Moment Estimation/ fixed-point iteration/ Bayesian Smoothing/ CTR Prediction

1. 背景介紹

廣告形式：

互聯網廣告可以分為以下三種：

1）展示廣告（display ad）

2）搜索廣告（sponsored search ad）

3）上下文廣告（contextual ad）

競價模式：

對於在線廣告，主要有以下幾種競價模式：

1）pay-per-impression（按展示付費）：廣告商按照廣告被展示的次數付費，這是一種最普遍的競價模型。缺點在於沒有考慮投放廣告的效果。

2）pay-per-action（按行為付費）：只有在廣告產生了銷售或者類似的一些轉化時，廣告商才付費。缺點在於追蹤用戶的交易行為相對比較困難。

3）pay-per-click（按用戶點擊付費）：根據用戶是否會點擊廣告來付費。這時候就需要對廣告的點擊率（CTR）進行精確的預估。

遇到的困難：

由於數據的稀疏性，對廣告進行CTR預估是比較具有挑戰性的，預估出來的CTR的可靠性不高，且具有較大的方差。主要有以下兩類場景：

1）當廣告的展示次數較少的時候，對其直接進行CTR的統計計算會導致一個偏高的結果。比如某個廣告只展示了1次，被點擊了1次，則純粹的統計CTR=1.0，這顯然是過分高估了。

2）當廣告的展示次數很大，但點擊次數很少或幾乎沒有的時候，對其直接進行CTR的統計計算會導致一個偏低的結果。比如某個廣告沒有被點擊過，則純粹的統計CTR=0.0，這顯然是過分低估了。

2. 數據的層級結構

在許多場景下，數據是很自然地存在層級結構，或者可以通過數據的聚類的方式得到層級結構的。如下圖所示，是雅虎網站的網頁層級結構示意圖：

我們假設事件的發生並不是相互獨立的，相反，在層級結構中相對比較靠近的兩個事件的相關性要大於距離較遠的兩個事件，它們之間擁有很多共通之處。於是，我們便可以利用“相似”事件的信息來豐富某個我們感興趣的事件（這個事件本事的發生的次數比較少）。具體到我們現有的場景下，可以利用與我們需要預估的事件（比如query-ad pair，或者page-ad pair）的“相似”事件的信息來幫助我們來做出預估計算。

假設有相同account下的N個ad，以及所在的page，我們感興趣的是page-ad pair的CTR，於是我們可以利用貝葉斯的方法來結合（1）這個ad本身的信息，以及（2）該page下與這個ad來自相同account的其它ad的信息。我們觀測到的點擊信息為，這些點擊信息源自各個ad的隱含CTR信息，點擊信息服從二項分布。而隱含的每個ad的CTR，可以看做是來自於它們相同的account的公有信息，其服從貝塔分布。於是乎，每個ad的隱含CTR值，不僅與觀測到的展示點擊數據有關，還與其所屬的account的整體信息有關，即與這對超參數有關。我們可以利用二項分布和貝塔分布的共軛特性，計算所有ad所屬的相同account的似然函數，然后利用最大似然估計（MLE）來計算超參數。當有了的估計值后，我們便可以得到每個ad的后驗估計：。這個后驗估計值可以作為一個平滑后的CTR值，它要比單純地統計CTR擁有更小的方差，更加穩定。