深度強化學習——連續動作控制DDPG、NAF

本文轉載自查看原文 2018-09-29 23:45 1425 DRL 深度強化學習

一、存在的問題

DQN是一個面向離散控制的算法，即輸出的動作是離散的。對應到Atari 游戲中，只需要幾個離散的鍵盤或手柄按鍵進行控制。

然而在實際中，控制問題則是連續的，高維的，比如一個具有6個關節的機械臂，每個關節的角度輸出是連續值，假設范圍是0°~360°，歸一化后為（-1，1）。若把每個關節角取值范圍離散化，比如精度到0.01，則一個關節有200個取值，那么6個關節共有

解決方法
使用Policy-Based方法，通過各種策略梯度方法直接優化用深度神經網絡參數化表示的策略，即網絡的輸出就是動作。

二、DDPG

深度確定性策略梯度（Deep Deterministic Policy Gradient， DDPG）算法是Lillicrap 等人利用 DQN 擴展 Q 學習算法的思路對確定性策略梯度（Deterministic Policy Gradient， DPG）方法進行改造，提出的一種基於行動者-評論家（Actor-Critic，AC）框架的算法，該算法可用於解決連續動作空間上的 DRL 問題。

這里寫圖片描述

隨機性策略和確定性策略：

隨機性策略，策略輸出的是動作的概率，比如上一篇A3C博客提到的連續動作控制，使用的是一個正態分布對動作進行采樣選擇，即每個動作都有概率被選到；優點，將探索和改進集成到一個策略中；缺點，需要大量訓練數據。
確定性策略，策略輸出即是動作；優點，需要采樣的數據少，算法效率高；缺點，無法探索環境。

在真實場景下機器人的操控任務中，在線收集並利用大量訓練數據會產生十分昂貴的代價，並且動作連續的特性使得在線抽取批量軌跡的方式無法達到令人滿意的覆蓋面，這些問題會導致局部最優解的出現。

然而使用確定性策略無法探索環境，如何解決？
利用off-policy學習方法。off-policy是指采樣的策略和改進的策略不是同一個策略。類似於DQN，使用隨機策略產生樣本存放到經驗回放機制中，訓練時隨機抽取樣本，改進的是當前的確定性策略。整個確定性策略的學習框架采用AC的方法。

DDPG公式
在DDPG中，分別使用參數為

J (θ μ) = E θ μ [r 1 + γ r 2 + γ 2 r 3 + \dots]

\partial J ( θ μ ) \partial θ μ = E s [ \partial Q ( s , a | θ Q ) \partial θ μ ]

\partial J ( θ μ ) \partial θ μ = E s [ \partial Q ( s , a | θ Q ) \partial a \partial π ( s

通過 DQN中更新值網絡的方法來更新評論家網絡，梯度信息為：

\partial L ( θ Q ) \partial θ Q = E s , a , r , s ' \sim D [ ( T a r g e t Q - Q ( s , a

T a r g e t Q = r + γ Q' (s', π (s' | θ μ') | θ Q')

其中

算法偽代碼
這里寫圖片描述

區別於DQN，DQN每隔一定的迭代次數后，將MainNet參數復制給TargetNet；而DDPG中TargetNet的參數每次迭代都以微小量逼近MainNet的參數。

網絡訓練流程圖
這里寫圖片描述

實驗表明， DDPG 不僅在一系列連續動作空間的任務中表現穩定，而且求得最優解所需要的時間步也遠遠少於 DQN。與基於值函數的 DRL 方法相比，基於 AC 框架的深度策略梯度方法優化策略效率更高、求解速度更快。

DDPG缺點：
不適用於隨機環境的場景

三、NAF

Shixiang等人的論文中共有兩個算法，第一個是NAF，第二個是基於模型（Model-based）加速的NAF。這里只介紹簡單的NAF。

DDPG的問題：
需要訓練兩個網絡即策略網絡和值網絡

解決方法
歸一化優勢函數（normalized advantage functions ，NAF）只需要訓練一個網絡。

NAF公式：
NAF的目的之一是要將深度神經網絡Q-Learning應用於連續動作空間，而要用Q-Learing進行訓練必須要知道目標Q值（TargetQ）。

和前面博客Dueling-DDQN介紹的dueling net思想類似，動作值函數可以表示為狀態值函數

Q (x, u | θ Q) = V (x | θ V) + A (x, u | θ A)

A (x, u | θ A) = - 1 2 ( u - μ ( x | θ μ ) ) T P ( x | θ P ) ( u -

P (x | θ P) = L (x | θ P) L (x | θ P) T

最終算法的Loss Function為

L (θ Q) = E [(T a r g e t Q - Q (x t, u t | θ Q)) 2]

T a r g e t Q = r t + γ V' (x t + 1 | θ Q')

Q (x t, u t | θ Q) = V (x t | θ V) + A (x t, u t | θ A)

使用DQN的訓練方式訓練。

算法偽代碼
這里寫圖片描述

網絡訓練流程圖
這里寫圖片描述

網絡輸出的是下三角矩陣

異步NAF訓練機械臂
Shixiang等人還使用了異步NAF訓練機械臂開門。
這里寫圖片描述

該算法具有一個訓練線程（trainer thread）和多個收集樣本線程（collector thread），collector thread將收集到的樣本存於經驗回放機制中，供trainer thread訓練。

這個異步NAF算法和A3C算法的不同之處在於：
異步NAF是off-policy，collector thread不提供梯度信息；
A3C是on-policy，每個線程agent都提供梯度信息。

參考文獻
[1]Continuous control with deep reinforcement learning
[2]Continuous Deep Q-Learning with Model-based Acceleration
[3]Deterministic Policy Gradient Algorithm
[4]Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates
[5]深度強化學習綜述_劉全等

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習算法總結-DDPG 深度強化學習方向論文整理深度強化學習——ppo(待重寫) 深度強化學習——最大熵強化學習入門【算法總結】強化學習部分基礎算法總結（Q-learning DQN PG AC DDPG TD3） What？100%基於深度強化學習的對沖基金深度強化學習方法策略迭代 & 值迭代 6、DRN-----深度強化學習在新聞推薦上的應用深度強化學習中稀疏獎勵問題Sparse Reward 強化學習總結