文獻筆記:Deterministic Policy Gradient Algorithms

本文轉載自查看原文 2019-04-24 23:40 1166 強化學習

為什么需要引入決定性策略梯度？

決定性策略梯度算法對於策略函數的更新形式比較簡單，就是action-value函數的期望，這種簡單的形式能夠在估計policy時變得更有效。

作為隨機策略，在相同的策略，在同一個狀態處，采用的動作是基於一個概率分布的，即是不確定的。而確定性策略則決定簡單點，雖然在同一個狀態處，采用的動作概率不同，但是最大概率只有一個，如果我們只取最大概率的動作，去掉這個概率分布，那么就簡單多了。即作為確定性策略，相同的策略，在同一個狀態處，動作是唯一確定的，即策略變成

\[\pi _ { \theta } ( s ) = a\]

論文首先回顧了隨機策略Policy Gradiet算法以及其函數逼近理論，指出如果滿足:

(1) $Q ^ { w } ( s , a ) = \nabla _ { \theta } \log \pi _ { \theta } ( a | s ) ^ { \top } w$。(2)$w$可以最小化MSE損失函數$\epsilon ^ { 2 } ( w ) = \mathbb { E } _ { s \sim \rho ^ { \pi } , a \sim \pi _ { \theta } } \left[ \left( Q ^ { w } ( s , a ) - Q ^ { \pi } ( s , a ) \right) ^ { 2 } \right]$。則函數估計$Q ^ { w } ( s , a ) \approx Q ^ { \pi } ( s , a )$是無偏的。

對於決定性策略，本文首先給出了策略函數的更新方式，其中$\mu_{\theta}(s)$為策略函數

\[\theta ^ { k + 1 } = \theta ^ { k } + \alpha \mathbb { E } _ { s \sim \rho ^ { \mu ^ { k } } } \left[ \nabla _ { \theta } Q ^ { \mu ^ { k } } \left( s , \mu _ { \theta } ( s ) \right) \right]\]

運用鏈式法則，上式可以改寫成：

\[\theta ^ { k + 1 } = \theta ^ { k } + \alpha \mathbb { E } _ { s \sim \rho ^ { \mu ^ { k } } } \left[ \nabla _ { \theta } \mu _ { \theta } ( s ) \nabla _ { a } Q ^ { \mu ^ { k } } \left. ( s , a ) \right| _ { a = \mu _ { \theta } ( s ) } \right]\]

隨后論文3.2部分給出了上述策略函數更新的理論證明，記$\rho_{\mu}(s)$表示由策略$\mu_{theta}(s)$生成的平穩分布，則優化目標可以寫為：

\begin{aligned} J \left( \mu _ { \theta } \right) & = \int _ { \mathcal { S } } \rho ^ { \mu } ( s ) r \left( s , \mu _ { \theta } ( s ) \right) \mathrm { d } s \\ & = \mathbb { E } _ { s \sim \rho ^ { \mu } } \left[ r \left( s , \mu _ { \theta } ( s ) \right) \right] \end{aligned}

（上式的個人理解表示平均一步回報）

該證明與策略梯度函數逼近論文Policy Gradient Methods for Reinforcement Learning with Function Approximation證明類似，表明了目標函數梯度不涉及平穩分布函數導數的計算。具體的定理形式為：

作者首先給出了On policy的DPG算法：

\begin{aligned} \delta _ { t } & = r _ { t } + \gamma Q ^ { w } \left( s _ { t + 1 } , a _ { t + 1 } \right) - Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ w _ { t + 1 } & = w _ { t } + \alpha _ { w } \delta _ { t } \nabla _ { w } Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ \theta _ { t + 1 } & = \theta _ { t } + \alpha _ { \theta } \nabla _ { \theta } \mu _ { \theta } \left( s _ { t } \right) \nabla _ { a } Q ^ { w } \left. \left( s _ { t } , a _ { t } \right) \right| _ { a = \mu _ { \theta } ( s ) } \end{aligned}

其中$w$是針對$Q$的估計函數$Q^w$的參數，其更新的准則是根據MSE計算出來的。$\theta$是策略函數$\mu_{\theta}$的參數。

其后論文又給出了off-policy的DPG算法，其中我們所希望評估的策略函數為$\mu_{\theta}$，為了進行探索而實際采用的策略函數為$\beta$，記$\rho^{\beta}(s)$表示由策略$\beta$生成的平穩分布，則准則函數可以寫成：

\begin{aligned} \nabla _ { \theta } J _ { \beta } \left( \mu _ { \theta } \right) & \approx \int _ { \mathcal { S } } \rho ^ { \beta } ( s ) \nabla _ { \theta } \mu _ { \theta } ( a | s ) Q ^ { \mu } ( s , a ) \mathrm { d } s \\ & = \mathbb { E } _ { s \sim \rho ^ { \beta } } \left[ \nabla _ { \theta } \mu _ { \theta } ( s ) \nabla _ { a } Q ^ { \mu } \left. ( s , a ) \right| _ { a = \mu _ { \theta } ( s ) } \right] \end{aligned}

注意到對於決定性策略，不存在選擇策略的概率這一表達，因此，在更新過程中可以避免傳統的基於概率的重要性采樣計算，所以算法可以表述成下面形式：

\begin{aligned} \delta _ { t } & = r _ { t } + \gamma Q ^ { w } \left( s _ { t + 1 } , \mu _ { \theta } \left( s _ { t + 1 } \right) \right) - Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ w _ { t + 1 } & = w _ { t } + \alpha _ { w } \delta _ { t } \nabla _ { w } Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ \theta _ { t + 1 } & = \theta _ { t } + \alpha _ { \theta } \nabla _ { \theta } \mu _ { \theta } \left( s _ { t } \right) \nabla _ { a } Q ^ { w } \left. \left( s _ { t } , a _ { t } \right) \right| _ { a = \mu _ { \theta } ( s ) } \end{aligned}

最后，論文給出了DPG的采用線性函數逼近定理，以及在線性逼近下加入baseline的更新算法，以及拓展到MSPBE（即采用二次損失函數，梯度時序差分算法）的更新算法。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Policy Gradient Algorithms 文獻筆記:Policy Gradient Methods for Reinforcement Learning with Function Approximation Proximal Policy Optimization Algorithms 論文筆記之：SeqGAN: Sequence generative adversarial nets with policy gradient 深度增強學習--Policy Gradient [Reinforcement Learning] Policy Gradient Methods 深度學習-深度強化學習(DRL)-Policy Gradient與PPO筆記強化學習讀書筆記 - 13 - 策略梯度方法(Policy Gradient Methods) 強化學習七 - Policy Gradient Methods 強化學習算法Policy Gradient