京東最新點擊率預估模型論文學習和分享


最近看了京東算法團隊最新發表的一篇點擊率預估模型的paper Telepath: Understanding Users from a Human Vision Perspective in Large-Scale Recommender Systems,在這里分享一下。

這篇paper的創新點主要體現在嘗試從用戶視覺的角度來反映圖片/文字等信息對CTR的影響。從用戶視覺的角度來看,有兩個關鍵方面會影響用戶的行為:一是商品的吸引力;二是商品與當前用戶興趣的匹配度。而paper中介紹的Telepath模型是融合了CNN、RNN、DNN這三種不同的神經網絡模型的結果。其中CNN是用於模擬用戶的視覺系統從而提取出體現商品吸引力的關鍵的視覺信號(key vision signal);而RNN和DNN則是基於用戶的瀏覽商品行為來模擬其興趣信息。這樣一個模型在京東的推薦系統和廣告系統中中得到應用,並取得了效果提升。

首先看一下Telepath模型的框架圖:

Vision Extraction Module

輸入數據是用戶最近瀏覽過的N個商品,以及待預估商品的圖像信息,該module用於模擬用戶的視覺系統從而提取出體現商品吸引力的關鍵的視覺信號(key vision signal),並表示成向量用於后續處理。相比於傳統的item-to-vector方法,其對於展現次數較少的長尾商品的擬合更好,能夠更好地解決物品冷啟動問題,並具有更好的特征表達能力(可以表達例如顏色等信息)。使用CNN是因為其適用於處理圖像信息。

Interest Understanding Module

基於上述Vision Extraction Module產出的體現商品吸引力的關鍵的視覺信號信息,可以使用用戶最近瀏覽的商品的這些信息來得到用戶的興趣偏好,故使用了RNN這樣一個適用於處理序列信息(用戶瀏覽商品序列)的模型;而DNN適用於處理序列中隱藏的用戶偏好信息。

Scoring Module

現在可以使用的特征包括:待預估商品的圖像信息;用戶的偏好信息;用戶和商品的統計類信息。前兩者是使用Vision Extraction Module和Interest Understanding Module得到的;而第三種信息則是一使用wide&deep model得到的特征向量,wide部分用於學習特征交叉的記憶類信息,deep部分用於學習隱藏的特征組合信息。最后將這三種特征組合進行打分預測。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM