論文地址:Deep Interest Network for Click-Through Rate ...
這篇論文來自阿里媽媽的精准定向檢索及基礎算法團隊。文章提出的Deep Interest Network (DIN),實現了推薦系統CTR預估模型中,對用戶歷史行為數據的進一步挖掘。同時,文章中提出的Dice激活函數和自適應正則方法也優化了模型的訓練過程。
Motivation
CTR預估任務是,根據給定廣告、用戶和上下文情況等信息,對每次廣告的點擊情況做出預測。其中,對於用戶歷史行為數據的挖掘尤為重要,從這些歷史行為中我們可以獲取更多的關於用戶興趣的信息,從而幫助作出更准確的CTR預估。
許多應用於CTR預估的深度模型已經被提出。它們的基本思路是將原始的高維稀疏特征映射到一個低維空間中,也即對原始特征做了embedding操作,之后一起通過一個全連接網絡學習到特征間的交互信息和最終與CTR之間的非線性關系。這里值得注意的一點是,在對用戶歷史行為數據進行處理時,每個用戶的歷史點擊個數是不相等的,我們需要把它們編碼成一個固定長的向量。以往的做法是,對每次歷史點擊做相同的embedding操作之后,將它們做一個求和或者求最大值的操作,類似經過了一個pooling層操作。論文認為這個操作損失了大量的信息,於是引入attention機制,提出一種更好的表示方式。
DIN方法基於對用戶歷史行為數據的兩個觀察:1、多樣性,一個用戶可以對多種品類的東西感興趣;2、部分對應,只有一部分的歷史數據對目前的點擊預測有幫助,比如系統向用戶推薦泳鏡時會和用戶點擊過的泳衣產生關聯,但是跟用戶買的書就關系不大。於是,DIN設計了一個attention結構,對用戶的歷史數據和待估算的廣告之間部分匹配,從而得到一個權重值,用來進行embedding間的加權求和。
Model
- 模型結構
傳統深度模型和DIN模型的對比如下圖:
DIN模型在對用戶的表示計算上引入了attention network (也即圖中的Activation Unit) 。DIN把用戶特征、用戶歷史行為特征進行embedding操作,視為對用戶興趣的表示,之后通過attention network,對每個興趣表示賦予不同的權值。這個權值是由用戶的興趣和待估算的廣告進行匹配計算得到的,如此模型結構符合了之前的兩個觀察——用戶興趣的多樣性以及部分對應。attention network 的計算公式如下, 代表用戶表示向量,
代表用戶興趣表示向量,
代表廣告表示向量:
- 模型訓練
a. 評價指標
不同於以往CTR模型采用AUC作為評價指標,論文采用的評價指標是自己設計的GAUC評價指標,並且實踐證明了該評價指標更可靠。
AUC的含義是正樣本得分比負樣本得分高的概率。在CTR的實際應用場景中,CTR預測常被應用於對每個用戶的候選廣告進行排序,也即最終想得到的效果是每個用戶的AUC達到最高。同時,不同用戶的AUC之間也確實存在差別,有的用戶天生點擊率就高,有的用戶卻不怎么喜歡點擊廣告。
以往的評價指標是對樣本不區分用戶地進行AUC計算。論文采用的GAUC計算了用戶級別的AUC,在將其按展示次數進行加權,消除了用戶偏差對模型評價的影響,更准確地描述了模型對於每個用戶的表現效果。
b. 激活函數
論文提出了一種新的激活函數,實驗效果表現優於PReLU,是一種data dependent的激活函數。首先,PReLU的定義如下:
它其實是ReLU的改良版,ReLU可以看作是 ,相當於輸出
經過了一個在0點的階躍整流器。由於ReLU在
小於0的時候,梯度為0,可能導致網絡停止更新,PReLU對整流器的左半部分形式進行了修改,使得
小於0時輸出不為0。
然而論文里認為,對於所有輸入不應該都選擇0點為整流點。於是提出了一種data depende- nt的方法,並稱該激活函數為Dice函數,形式如下:
可以看出, 值這個概率值決定着輸出是取
或者是
,
也起到了一個整流器的作用。這里注意獲取
的兩步操作:首先,對
進行均值歸一化處理,這使得整流點是在數據的均值處,實現了data dependent的想法;其次,經過一個sigmoid函數的計算,得到了一個0到1的概率值,巧合的是最近google提出的Swish函數形式為
在多個實驗上證明了比ReLU函數
表現更優。
c. 自適應正則
在CTR預估任務中,用戶行為數據具有長尾分布的特點,也即數據非常的稀疏。為了防止模型過擬合,論文設計了一個自適應的正則方法。
代表了特征
出現的頻率。該正則項懲罰了出現頻率低的item,取得了不錯的效果。
Result
可以看到DIN的效果好於Base模型,同時Dice激活函數和自適應正則都為模型效果帶來提升。
Innovation
- 論文着力於在CTR預估任務中對用戶歷史數據的挖掘。基於對用戶興趣的兩個觀察——興趣多樣性和興趣與廣告部分對應,提出了深度興趣網絡DIN。
- DIN的主要想法是,在對用戶的表示上引入了attention機制,也即對用戶的每個興趣表示賦予不同的權值,這個權值是由用戶的興趣和待估算的廣告進行匹配計算得到的。這個想法和seq2seq模型中attention的想法類似,seq2seq模型中對應每個輸出
都會通過attention結構學習得到一個輸入的表示
,改變以往用固定向量表示的方式,使得網絡學習更加靈活。
- DIN在訓練過程和評價指標上都有一些技巧,尤其論文中提出了Dice激活函數和自適應正則為模型效果都帶來了提升