1、摘要:
提出了一種新的深度強化學習框架的新聞推薦。由於新聞特征和用戶喜好的動態特性,在線個性化新聞推薦是一個極具挑戰性的問題。
雖然已經提出了一些在線推薦模型來解決新聞推薦的動態特性,但是這些方法主要存在三個問題:①只嘗試模擬當前的獎勵(eg:點擊率)②很少考慮使用除了點擊 / 不點擊標簽之外的用戶反饋來幫助改進推薦。③ 這些方法往往會向用戶推薦類似消息,這可能會導致用戶感到厭煩。
基於深度強化學習的推薦框架,該框架可以模擬未來的獎勵(點擊率)
2、引言:
新聞推薦三個問題:
(1)新聞推薦的動態變化是難以處理的。
(2)用戶的興趣可能隨着時間的變化而變化。
(3)創新
強化學習:假定一個智能體(agent),在一個未知的環境中(當前狀態state),采取了一個行動(action),然后收獲了一個回報(reward),並進入了下一個狀態。最終目的是求解一個策略讓agent的回報最大化。
因此,本文提出了基於深度強化學習的推薦系統框架來解決上述提到的三個問題:
(1)首先,使用DQN網絡來有效建模新聞推薦的動態變化屬性,DQN可以將短期回報和長期回報進行有效的模擬。
(2)將用戶活躍度作為一種新的反饋信息。
(3)使用Dueling Bandit Gradient Descent 方法來進行有效的探索。
算法的框架如下圖所示:
3、問題描述:
當一個用戶 u 在時間 t 向推薦系統 G 發送一個新聞請求,系統會利用一個給定的新聞候選集 I 給用戶推薦一個 top-k 列表給用戶。
4、模型方法:
4.1 整體架構圖:
幾個關鍵環節:
push:在每一個時刻,用戶發送請求時,agent根據當前的state產生k篇新聞推薦給用戶。
Feedback:通過用戶對推薦新聞的點擊行為得到反饋結果。
minor update:在每個時間點過后,根據用戶的信息(state)和推薦的新聞(action)以及得到的反饋(reward),更新參數。
major update:在一段時間后,根據DQN的經驗池中存放的歷史經驗,對模型參數進行更新。