[強化學習論文筆記(1)]:DQN

本文轉載自查看原文 2019-12-30 22:50 719 DQN/ 強化學習論文閱讀/ 強化學習/ 論文

Playing Atari with Deep Reinforcement Learning

論文地址

DQN

筆記

這篇文章就是DQN,DRL領域非常重要的一篇文章,也是David Silver大神的工作。文章本身沒有什么難度。

文章說了RL和DL 的兩個不同之處:

DL 尤其是supervised learning 需要大量的labelled training data, 強化學習只有一個scalar Reward，並且reward很可能noisy,sparse,delayed
DL 通常假設數據是獨立同分布的，但是強化學習的數據前后有高度的相關性，數據分布也會變化

DQN 其實就是Q-learning 的神經網絡版本，基礎理論是一致的，就是解決幾個遷移到神經網絡上遇到的問題

Bellman optimal equation: \(Q_*(s,a) =E_{s'\sim \varepsilon}[r+ \gamma \underset{a'}{max}Q(s',a')|s,a]\)

使用的是value iteration 來進行GPI，要優化的目標函數是：

\[L_i(\theta_i) = E_{s,a\sim\rho(\cdot)}[(y_i-Q(s,a;\theta_{i}))^2] \]

\(\rho(s,a)\)是behaviour distribution,\(y_i = E_{s'\sim \varepsilon }[r+ \gamma \underset{a'}{max}Q(s',a';\theta_{i-1})|s,a]\)

求導之后的公式為:(semi-gradient)

\[\nabla_{\theta_i}L_i(\theta_i) = E_{s,a \sim\rho(\cdot);s'\sim \varepsilon}[r+\gamma \underset{a'}{max} Q(s',a';\theta_{i-1})-Q(s,a;\theta_i))\nabla_{\theta_i} Q(s,a;\theta_i)] \]

為了解決數據分布問題，使用了experience replay

算法為：

算法優勢

每一步經驗都可以重復使用，提高了data efficiency
從replay buffer中隨機sample,一定程度上打破了數據之間的聯系，減小了方差
off-policy 更加smooth,不容易陷入局部最優

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [強化學習論文筆記(3)]:DRQN [強化學習論文筆記(2)]:DoubleDQN [強化學習論文筆記(7)]:DPG [強化學習論文筆記(4)]:DuelingDQN 強化學習入門筆記系列——DQN算法強化學習(十一) Prioritized Replay DQN 【強化學習】DQN 算法改進強化學習（十）Double DQN (DDQN) 強化學習(十二) Dueling DQN 強化學習（四）—— DQN系列（DQN, Nature DQN, DDQN, Dueling DQN等）