貝葉斯平滑方法及其代碼實現
1. 背景介紹
2. 數據的層級結構

我們假設事件的發生並不是相互獨立的,相反,在層級結構中相對比較靠近的兩個事件的相關性要大於距離較遠的兩個事件,它們之間擁有很多共通之處。於是,我們便可以利用“相似”事件的信息來豐富某個我們感興趣的事件(這個事件本事的發生的次數比較少)。具體到我們現有的場景下,可以利用與我們需要預估的事件(比如query-ad pair,或者page-ad pair)的“相似”事件的信息來幫助我們來做出預估計算。
假設有相同account下的N個ad,以及所在的page,我們感興趣的是page-ad pair的CTR,於是我們可以利用貝葉斯的方法來結合(1)這個ad本身的信息,以及(2)該page下與這個ad來自相同account的其它ad的信息。我們觀測到的點擊信息為
,這些點擊信息源自各個ad的隱含CTR信息
,點擊信息服從二項分布
。而隱含的每個ad的CTR,可以看做是來自於它們相同的account的公有信息,其服從貝塔分布
。於是乎,每個ad的隱含CTR值,不僅與觀測到的展示點擊數據
有關,還與其所屬的account的整體信息有關,即與
這對超參數有關。我們可以利用二項分布和貝塔分布的共軛特性,計算所有ad所屬的相同account的似然函數,然后利用最大似然估計(MLE)來計算超參數
。當有了
的估計值
后,我們便可以得到每個ad的后驗估計:
。這個后驗估計值可以作為一個平滑后的CTR值,它要比單純地統計CTR
擁有更小的方差,更加穩定。
3. 數據的連續性
在很多場景下,我們更關心CTR的趨勢,而不是一個特定時間點的CTR值。因為對於展示量較少的page-ad pair,某個特定時間點的CTR預估值是包含很大噪聲的。我們將展現和點擊看做是離散集合的重復觀測值,然后使用指數平滑技術進行CTR平滑。
假設對於page-ad pair,我們有M天的展現和點擊
,然后我們希望預估出第M天的CTR。我們將平滑后的展現和點擊記為
,它們可由下面公式得到(這里只給出了點擊的公式計算,展現也同理):
其中,是平滑系數,它控制着我們把歷史信息納入我們平滑的計算中的權重大小。
上述的兩種方法:(1)數據層級結構的貝葉斯平滑,(2)時間窗口的指數平滑,可以結合使用。
4. 數據層級結構的貝葉斯平滑方法具體介紹
這里我們規定將page-ad pair的信息在層級結構上上升到publisher-account pair的信息(不同page隸屬於相同的publisher,不同的ad隸屬於相同的account)。
有兩個假設:
(1)對於publisher-account pair,有1個隱含的CTR概率分布,而每個page-ad pair的CTR可以看作是從這個整體的CTR分布中隨機采樣出來的。
(2)對於page-ad pair,我們觀測到其對應的展現信息和點擊信息。
其對應的概率圖模型如下,灰色部分是觀測變量,白色部分是隱含變量:
對於該publisher-account下的所有page-ad pair的點擊計算出似然函數:
將上述的log似然函數分別對α和β求導數,即為:
通過fixed-point iteration方法,我們可以得到α和β在每一輪迭代中的更新公式:
迭代的終止條件為一個固定的迭代次數(如1000次),或者α和β在一次迭代中的變化值都小於一個epsilon(如1E-10)。一旦有了的估計值
后,我們便可以得到每個ad的后驗估計:
。
5. 參數估計的幾種方法
1. 矩估計
矩估計在這里是相對比較簡單的參數估計方法。矩估計的方法要追溯到19世紀的Karl Pearson,是基於一種簡單的 “替換” 思想建立起來的一種估計方法。 其基本思想是用樣本矩估計總體矩. 由大數定理,如果未知參數和總體的某個(些)矩有關系,我們可以很自然地來構造未知參數的估計。具體計算步驟如下:
1)根據給出的概率密度函數,計算總體的原點矩(如果只有一個參數只要計算一階原點矩,如果有兩個參數要計算一階和二階)。由於有參數這里得到的都是帶有參數的式子。比如,有兩個參數時,需要先計算出:期望 ; 方差
2)根據給出的樣本,按照計算樣本的原點矩。通常它的均值用 表示,方差用
表示。(另外提一句,求
時,通常用n-1為底。這樣是想讓結果跟接近總體的方差,又稱為無偏估計。)
3)讓總體的原點矩與樣本的原點矩相等,解出參數。所得結果即為參數的矩估計值。
2. fixed-point iteration
首先構造出似然函數,然后利用fixed-point iteration來求得似然函數的最大值。
1)首先給出參數的一個初始值。
2)在初始值處,構造似然函數的一個緊的下界函數。這個下界函數可以用closed-form的方式計算其最大值處的參數值,將此參數值作為新的參數估計。
3)不斷重復上述(2)的步驟,直至收斂。此時便可到達似然函數的stationary point。
其實fixed-point iteration(不動點迭代)的思想與EM類似。
3. EM
通過將概率參數作為隱含變量,任何估計概率參數的算法都可以進一步變成估計個數參數的算法。
(1)E-step:計算出p在已觀測數據(觀測到的每個類別發生的次數,以及每個類別的超參數值的上一輪迭代的取值)下的后驗分布,便可以得到complete data的對數似然函數的期望值。
(2)M-step:對E-step中的期望值求最大值,便可得到相應的超參數的本輪迭代的更新值。
(3)不斷重復地運行E-step和M-step,直至收斂。
6. 數據層級結構的貝葉斯平滑方法代碼實現
#!/usr/bin/python # coding=utf-8 import numpy import random import scipy.special as special class BayesianSmoothing(object): def __init__(self, alpha, beta): self.alpha = alpha self.beta = beta def sample(self, alpha, beta, num, imp_upperbound): sample = numpy.random.beta(alpha, beta, num) I = [] C = [] for clk_rt in sample: imp = random.random() * imp_upperbound imp = imp_upperbound clk = imp * clk_rt I.append(imp) C.append(clk) return I, C def update(self, imps, clks, iter_num, epsilon): for i in range(iter_num): new_alpha, new_beta = self.__fixed_point_iteration(imps, clks, self.alpha, self.beta) if abs(new_alpha-self.alpha)<epsilon and abs(new_beta-self.beta)<epsilon: break self.alpha = new_alpha self.beta = new_beta def __fixed_point_iteration(self, imps, clks, alpha, beta): numerator_alpha = 0.0 numerator_beta = 0.0 denominator = 0.0 for i in range(len(imps)): numerator_alpha += (special.digamma(clks[i]+alpha) - special.digamma(alpha)) numerator_beta += (special.digamma(imps[i]-clks[i]+beta) - special.digamma(beta)) denominator += (special.digamma(imps[i]+alpha+beta) - special.digamma(alpha+beta)) return alpha*(numerator_alpha/denominator), beta*(numerator_beta/denominator) def test(): bs = BayesianSmoothing(1, 1) I, C = bs.sample(500, 500, 1000, 10000) print I, C bs.update(I, C, 1000, 0.0000000001) print bs.alpha, bs.beta if __name__ == '__main__': test()
7. 參考文獻
1. Click-Through Rate Estimation for Rare Events in Online Advertising
版權聲明:
本文由笨兔勿應所有,發布於http://www.cnblogs.com/bentuwuying。如果轉載,請注明出處,在未經作者同意下將本文用於商業用途,將追究其法律責任。