Recommendations as Treatments: Debiasing Learning and Evaluation
Authors: Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, Thorsten Joachims
ICML’16 Cornell University
0. 總結
本文提出了基於IPS的評測指標和模型訓練方法,並提出了兩種傾向性評分的估計方法。收集並公開了Coat數據集,在半合成數據集和無偏數據集上,驗證了評測指標對Propensity score估計的魯棒性和IPS-MF的性能優越性。
1.研究目標
去除選擇偏差(selection-bias)對模型性能評測(evaluation)和模型訓練(training)帶來的不利影響。
2.問題背景
推薦系統中的選擇偏差(selection bias)可能有兩個來源:首先,用戶更可能跟自己感興趣的物品發生交互,不感興趣的物品更可能沒有交互記錄;第二,推薦系統在給出推薦列表時也會傾向於給用戶推薦符合用戶興趣的產品。
3. IPS評價指標

考慮圖一中的模型,圖中第一行分別表示真實評分Y、曝光概率P和曝光分布O,其中評分越低的交互,觀測到的概率也就越低。第二行\(\hat{Y}_1\)和\(\hat{Y}_2\)分別表示兩種不同的預測結果,\(\hat{Y}_3\)表示是否發生了交互。
3.1 任務1:評分預測准確率評價
在理想情況下,即所有評分都被觀測到時,評價指標為
但在存在selection bias的場景下,評價指標會變為
從喜惡判斷的角度,\(\hat{Y}_1\)明顯優於\(\hat{Y}_2\);但是從評價指標上看,由於\(\hat{Y}_2\)中預測錯誤的那些交互很少被觀測到,因此,\(\hat{Y}_2\)會優於\(\hat{Y}_1\)。
3.2 推薦質量評價
評價推薦結果的質量,也就是在回答一個反事實問題:如果用戶與推薦列表中的物品發生交互,而不是實際上的交互歷史,用戶的體驗會得到多大程度的提升?
評價指標可以是DCG等。由於觀測數據是有偏的,與3.1中的描述相似,最終的評價指標也是有偏的。
3.3 基於傾向分數的性能評估
解決selection bias的關鍵在於理解觀測數據的生成機制(Assignment Mechanism),包含系統生成(Experimental Setting)和用戶選擇(Observational Setting)兩種因素。
為了解決評測指標的偏差問題,作者提出使用逆傾向分數對觀察數據加權,構建一個對理想評測指標的無偏估計器——IPS Estimator:
其中\(O_{u,i} ~ Bernoulli(P_{u,i})\),\(P_{u,i}\)為propensity score。
3.4 實驗驗證
利用MF生成的全曝光模擬數據集,作者設計了幾種評分策略,每種策略都有不同的評分錯誤。基於真實數據集中的曝光情況,計算曝光交互的評價指標,證明了IPS評價指標能有效抵消selection bias帶來的評價誤差。

4. IPS推薦系統
基於IPS的推薦系統,訓練目標為:
其中\(P_{u,i}\)是傾向性評分,相當於在對應的loss項上加了權重。
5. 傾向性評分的估計
作者提出了兩種估計方法
-
朴素貝葉斯估計
這個方法似乎是對評分相同的u-i交互給出了相同的評分?
\[P\left(O_{u, i}=1 \mid Y_{u, i}=r\right)=\frac{P(Y=r \mid O=1) P(O=1)}{P(Y=r)} \] -
邏輯斯特回歸
將所有關於u-i對的信息都作為特征,來學習一個線性模型
\[P_{u, i}=\sigma\left(w^{T} X_{u, i}+\beta_{i}+\gamma_{u}\right) \]
6. 實驗
6.1 實驗設置
訓練集是有偏(MNAR)數據,使用k-折交叉驗證來調參,使用無偏數據或者合成的全曝光數據作為測試集。
6.2 采樣偏差對評測指標的影響
構建全曝光的合成數據集:在ML 100K數據集上,使用MF 填充所有空缺的評分,並對填充之后的評分分布進行調整,以降低高評分的比例。
實驗結果見3.4
6.3 采樣偏差對模型訓練的影響
對於不同程度的選擇偏差(\(\alpha\)越小,選擇偏差越大),實驗結果如下圖。
可見,IPS-MF和SNIPS-MF的性能要明顯優於naive-MF。

6.4 傾向性評分估計准確度的影響
使用不同比例的數據來估計傾向性評分,可以看出,在所有條件下,IPS和SNIPS都優於MF,驗證了模型對傾向性評分的魯棒性。

6.5 真實數據集上的性能
Yahoo! R3:使用5%的無偏數據來估計傾向性評分,95%的無偏數據作為測試集。
Coat:本文收集了一個新的無偏數據集Coat(很大的貢獻),包含290個user和300個item,每個user自主選擇24個商品給出評分,並對16個隨機商品給出評分(1-5分)。
實驗結果表明,在兩個數據集上都優於最好的baseline。
