Recommendations as Treatments: Debiasing Learning and Evaluation

Authors: Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, Thorsten Joachims

ICML’16 Cornell University

Recommendations as Treatments: Debiasing Learning and Evaluation

0. 總結

本文提出了基於IPS的評測指標和模型訓練方法，並提出了兩種傾向性評分的估計方法。收集並公開了Coat數據集，在半合成數據集和無偏數據集上，驗證了評測指標對Propensity score估計的魯棒性和IPS-MF的性能優越性。

1.研究目標

去除選擇偏差（selection-bias）對模型性能評測（evaluation）和模型訓練（training）帶來的不利影響。

2.問題背景

推薦系統中的選擇偏差（selection bias）可能有兩個來源：首先，用戶更可能跟自己感興趣的物品發生交互，不感興趣的物品更可能沒有交互記錄；第二，推薦系統在給出推薦列表時也會傾向於給用戶推薦符合用戶興趣的產品。

3. IPS評價指標

圖一

考慮圖一中的模型，圖中第一行分別表示真實評分Y、曝光概率P和曝光分布O，其中評分越低的交互，觀測到的概率也就越低。第二行\(\hat{Y}_1\)和\(\hat{Y}_2\)分別表示兩種不同的預測結果，\(\hat{Y}_3\)表示是否發生了交互。

3.1 任務1：評分預測准確率評價

在理想情況下，即所有評分都被觀測到時，評價指標為

\[R(\hat{Y})=\frac{1}{U \cdot I} \sum_{u=1}^{U} \sum_{i=1}^{I} \delta_{u, i}(Y, \hat{Y}) \]

但在存在selection bias的場景下，評價指標會變為

\[\hat{R}_{n a i v e}(\hat{Y})=\frac{1}{\left|\left\{(u, i): O_{u, i}=1\right\}\right|} \sum_{(u, i): O_{u, i}=1} \delta_{u, i}(Y, \hat{Y}) \]

從喜惡判斷的角度，\(\hat{Y}_1\)明顯優於\(\hat{Y}_2\)；但是從評價指標上看，由於\(\hat{Y}_2\)中預測錯誤的那些交互很少被觀測到，因此，\(\hat{Y}_2\)會優於\(\hat{Y}_1\)。

3.2 推薦質量評價

評價推薦結果的質量，也就是在回答一個反事實問題：如果用戶與推薦列表中的物品發生交互，而不是實際上的交互歷史，用戶的體驗會得到多大程度的提升？

評價指標可以是DCG等。由於觀測數據是有偏的，與3.1中的描述相似，最終的評價指標也是有偏的。

3.3 基於傾向分數的性能評估

解決selection bias的關鍵在於理解觀測數據的生成機制（Assignment Mechanism），包含系統生成（Experimental Setting）和用戶選擇（Observational Setting）兩種因素。

為了解決評測指標的偏差問題，作者提出使用逆傾向分數對觀察數據加權，構建一個對理想評測指標的無偏估計器——IPS Estimator：

\[\hat{R}_{I P S}(\hat{Y} | P)=\frac{1}{U \cdot I} \sum_{(u, i): O_{u, i}=1} \frac{\delta_{u, i}(Y, \hat{Y})}{P_{u, i}}\\ \mathbb{E}_{O}\left[\hat{R}_{I P S}(\hat{Y} | P)\right] =\frac{1}{U \cdot I} \sum_{u} \sum_{i} \mathbb{E}_{O_{u, i}}\left[\frac{\delta_{u, i}(Y, \hat{Y})}{P_{u, i}} O_{u, i}\right] \\ =\frac{1}{U \cdot I} \sum_{u} \sum_{i} \delta_{u, i}(Y, \hat{Y})=R(\hat{Y}) \]

其中\(O_{u,i} ~ Bernoulli(P_{u,i})\)，\(P_{u,i}\)為propensity score。

3.4 實驗驗證

利用MF生成的全曝光模擬數據集，作者設計了幾種評分策略，每種策略都有不同的評分錯誤。基於真實數據集中的曝光情況，計算曝光交互的評價指標，證明了IPS評價指標能有效抵消selection bias帶來的評價誤差。

4. IPS推薦系統

基於IPS的推薦系統，訓練目標為：

\[\underset{V, W, A}{\operatorname{argmin}}\left[\sum_{O_{u, i}=1} \frac{\delta_{u, i}\left(Y, V^{T} W+A\right)}{P_{u, i}}+\lambda\left(\|V\|_{F}^{2}+\|W\|_{F}^{2}\right)\right] \]

其中\(P_{u,i}\)是傾向性評分，相當於在對應的loss項上加了權重。

5. 傾向性評分的估計

作者提出了兩種估計方法

朴素貝葉斯估計

這個方法似乎是對評分相同的u-i交互給出了相同的評分？

\[P\left(O_{u, i}=1 \mid Y_{u, i}=r\right)=\frac{P(Y=r \mid O=1) P(O=1)}{P(Y=r)} \]
邏輯斯特回歸

將所有關於u-i對的信息都作為特征，來學習一個線性模型

\[P_{u, i}=\sigma\left(w^{T} X_{u, i}+\beta_{i}+\gamma_{u}\right) \]