Click Models for Web Search(1) - Basic Click Models

本文轉載自查看原文 2016-12-27 21:54 2195 click model/ CTR Prediction

這篇文章主要是介紹一些基本的click model，這些不同的click model對用戶與搜索結果頁的交互行為進行不同的假設。

為了定義一個model，我們需要描述出observed variables，hidden variables，以及它們之間的關聯，以及它們對model parameters的依賴關系。當我們獲取了model parameters之后，我們便可以進行CTR 預估，或者計算數據的最大似然估計。

1. RANDOM CLICK MODEL (RCM)

這是最簡單的一個model，只有一個參數：

這意味着每個document被點擊的概率是一樣，即。參數的預估比較簡單，相當於計算出全局的CTR。當我們獲得了的值之后，我們便可以使用簡單的Bernoulli分布來對用戶的點擊行為進行預估。

這個model非常簡單，可以作為baseline來看。另外，這個model由於只有一個參數，所以基本不會overfitting。

2. CLICK-THROUGH RATE MODELS (CTR)

我們可以在random click model的基礎上進一步，不僅僅只有一個簡單的model parameter。下面介紹的model parameter主要與document的排序，或者query-document pair相關。

2.1 RANK-BASED CTR MODEL (RCTR)

對點擊日志的研究中經常會用到的一個數據是不同位置下的CTR。根據Joachims等人在2005年發表的paper中可以看出，第1位document的CTR約為0.45，第10位document的CTR則低於0.05。根據這個觀察到的現象，我們可以構建一個document點擊概率與其位置有關的model：

使用最大似然估計（MLE）來預估model parameters時，可以看成直接計算training set在不同位置上的CTR。RCTR也是一個簡單的model，不會遇到overfitting的風險，經常作為baseline來看。

2.2 DOCUMENT-BASED CTR MODEL (DCTR)

另一種思路是對query-document pair的點擊率進行建模：

DCTR對每一個query-document pair都構建一個parameter，所以當我們使用過去的觀測數據訓練兵對新的數據進行預測時，DCTR會比RCM，RCTR更容易overfitting，尤其是當query或者document在以往的數據中沒有出現過的時候更是如此。

3. POSITION-BASED MODEL (PBM)

許多click model都會提到所謂的examination hypothesis：

這意味着一個用戶點擊了某個document，當且僅當他examine了這個document，且這個document是attractive的。參數與可以看做是獨立的。這個model對應的Bayesian network如下圖所示：

這個參數是用來表示在相應的query下，這個document的attractiveness。需要強調的一點是，這里的attractiveness是document顯示在搜索結果頁上的摘要的特征，而不代表document的整篇內容。雖然這兩者是相關的，但還不能等同看待。

Joachims等人在2005年發表的paper中顯示用戶examine一個document的概率主要依賴於該document在搜索結果頁中的位置，並且是位置越低概率越低。為了將這個特性考慮進model，我們為每個位置引入examination parameters。這樣的position-based model (PBM)由Craswell等人在2008年提出，可以表示成如下公式：

4. CASCADE MODEL (CM)

cascade model由Craswell等人在2008年提出，它假設用戶在搜索結果頁上從上至下瀏覽document，直至他找到一個相關的document為止。基於這個假設，第1位的document可以認為總是被examine的，而從第2位開始的documents當且僅當其上一個document被examine過且沒有被點擊時，它才會被examine。cascade model的公式表達如下：

cascade model的參數估計不難，因為該model下，所有的examine事件都是被觀察到的（確定的）。cascade model假設第一次點擊的document以上的所有documents都被examine過。cascade model只對一個session中只有一次點擊行為的事件進行建模，並且它無法解釋non-linear examination patterns。cascade model的Bayesian network如下圖所示：

cascade model(CM)和position-based model(PBM)的主要區別在於，PBM中一個document的點擊概率與排名比它靠前的documents無關，是相互獨立的，而CM則不是。另外，CM不允許一次session中有多於一次的點擊情況出現，而PBM則是可以的。

5. USER BROWSING MODEL (UBM)

由Dupret and Piwowarski在2008年提出的user browsing model(UBM)是PBM的一種擴展，其包含了cascade model的思路。UBM認為，examination probability雖然以position-based為主，但也需要將之前的點擊情況考慮進來：

所以，上式又可以寫成：

UBM的Bayesian network如下圖所示。左側的箭頭表示examination probability依賴於的點擊事件。而反過來又會影響其后面的document的examination probability。

6. DEPENDENT CLICK MODEL (DCM)

Guo等人在2009年提出的dependent click model(DCM)是cascade model的一種擴展，可以對一次session中有多次點擊的事件進行建模。這個model假設用戶點擊了一個document后，仍然有可能examine其它的documents。即：

其中是continuation parameter，只依賴於document的位置。

為了與后面會遇到的model保持一致，也為了簡化parameter estimation，我們引入satisfaction variables ，來表示在一次點擊發生后用戶的satisfaction。

DCM的Bayesian network如下圖所示：

7. CLICK CHAIN MODEL (CCM)

click chain model在DCM的基礎上更進一步，作者引入了一個參數來解決用戶沒有任何的點擊行為就放棄搜索的情況。他們同時更新了continuation parameter，使之不依賴於document的位置，而是依賴於query-document的relevance。CCM可以用公式表示為：

其中是3個常數（continuation parameters）。

同樣地，我們引入satisfaction variable：

CCM假設了satisfaction的概率等同於attractiveness的概率。這是一個很強的假設，因為satisfaction是由document的內容決定的（在點擊之后），而attractiveness則主要依賴於document展示在搜索結果頁上的摘要。

需要注意的是，CCM是到現在為止唯一的一個區分沒有點擊后的continuation probability和點擊document后dissatisfy的continuation probability的model。CCM的Bayesian network如下圖所示：

8. DYNAMIC BAYESIAN NETWORK MODEL (DBN)

由Chapelle and Zhang在2009年提出的dynamic Bayesian network model(DBN)也是cascade model的另一種不同形式的擴展。不同於CCM，DBN假設用戶在點擊一個document后的satisfaction不同於這個document的attractiveness(或者說perceived relevance)，而是actual relevance：

其中表示用戶沒有點擊document或者點擊之后沒有satisfy的continuation probability。DBN的Bayesian network如下圖所示：

SIMPLIFIED DBN MODEL (SDBN)

當假設時，parameter estimation會變得容易很多。

當我們進一步假設用戶點擊一個document之后，總是sarisfy的話，即的值總是為1的情形下，SDBN便退化為cascade model。

9. CLICK PROBABILITIES

click model是用於對用戶在搜索結果頁上的點擊行為進行建模。我們討論的這些basic click models 能夠計算出給定一個document后的點擊概率，以及在給定相同session中前面的點擊事件后對特定document進行點擊的概率。前者可以用於預估document的CTR，后者則可以用於模擬點擊行為，或者用於計算最大似然。

對於RCM，RCTR，DCTR，PBM這些簡單的model來說，對一個document的examination probability不依賴於該document前面的點擊。所以對於這些model來說有。對於RCM，RCTR，DCTR來說，這些概率直接等於model parameters：。對於PBM，則是。