背景
經典MLP不能充分利用結構化數據,本文提出的DIN可以(1)使用興趣分布代表用戶多樣化的興趣(不同用戶對不同商品有興趣)(2)與attention機制一樣,根據ad局部激活用戶興趣相關的興趣(用戶有很多興趣,最后導致購買的是小部分興趣,attention機制就是保留並激活這部分興趣)。
評價指標

按照user聚合樣本,累加每個user組的sum(shows*AUC)/sum(shows)。paper說實驗表明GAUC比AUC准確穩定。
DIN算法


左邊是基礎模型,也是實驗的對照組,paper介紹大部分線上模型使用的是左面的base model。user和ad的特征做one_hot編碼,為了定長采用池化層,網絡結構是全連接的MLP。
右邊是DIN,不同是為了處理上述兩個數據結構,輸入層增加了激活單元。
激活函數
激活函數g如下所示。

其中,vi代表用戶的行為編碼id,vu代表用戶的興趣編碼id,va代表ad的編碼id,wi代表對於某個候選廣告,attention機制中行為id對總體興趣編碼id的貢獻度。
激活函數采用本文提出的Dice,如下yi所示。

其中,pi和 mini batch數據的期望和方差,如下所示。

Dice激活函數的優點是根據minibatch的期望方差自適應調整校正點,而Relu采用硬校正點0。
對照組的PRelu(又叫leaky Relu)激活函數如下所示。


正則化
優化方法梯度下降法,如下所示。


其中,Ii如下所示。

架構實現
實現基於XDL平台,分為三部分:分布式特征編碼層,本地后台(Tensorflow)和溝通機制(MPI)。如下圖所示。

實驗結果
1)特征編碼:聚類效果明顯,而且紅色的CTR最高,DIN模型能夠正確的辨別商品是否符合用戶的興趣,如下圖所示。


2)局部激活效果:與候選廣告越相關的行為的attention分數越高,如下圖所示。


3)正則化效果:DIN效果最好,如下圖所示。


4)與基礎MLP模型相比:DIN最佳,如下圖所示。


參考Paper:Deep Interest Network for Click-Through Rate Prediction