文獻筆記:Policy Gradient Methods for Reinforcement Learning with Function Approximation

本文轉載自查看原文 2019-04-07 08:12 912 強化學習

本篇論文討論了策略梯度方法的函數逼近問題。首先明確策略梯度的目標函數：最大化策略$\pi$下的累計回報$\rho(\pi)$

\[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \right\}\]

上式是初始狀態為$s_0$的累計回報表達式，事實上，還可以利用策略生成的平穩狀態分布$d^\pi(s)$對$\rho(\pi)$進行加權：

\[\rho ( \pi ) = \lim _ { n \rightarrow \infty } \frac { 1 } { n } E \left\{ r _ { 1 } + r _ { 2 } + \cdots + r _ { n } | \pi \right\} = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \mathcal { R } _ { s } ^ { a }\]

為了改進策略，我們希望能夠按照$\rho(\pi)$的正梯度方向對$\pi$函數進行更新。假設$\theta$是策略函數$\pi$的參數，本文的第一個基本結論為，無論上面哪種形式的$\rho(\pi)$，其梯度都可以被表示為:

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\]

該結論表明$\rho(\pi)$的梯度不涉及$\frac { \partial d ^ { \pi } ( s ) } { \partial \theta }$項，而$d ^ { \pi } ( s )$是可以通過蒙特卡洛模擬得到的，這將為策略梯度方法的計算提供了極大的便利。

本文的結論2則解決了針對策略梯度的實際計算問題。假設$f_w$是$Q^\pi(s,a)$的一個估計，w是逼近器$f_w$的參數，則w的更新方向為:

\[\Delta w _ { t } \propto \frac { \partial } { \partial w } \left[ \hat { Q } ^ { \pi } \left( s _ { t } , a _ { t } \right) -\right.f _ { w } \left( s _ { t } , a _ { t } \right) ] ^ { 2 } \propto \left[ \hat { Q } ^ { \pi } \left( s _ { t } , a _ { t } \right) - f _ { w } \left( s _ { t } , a _ { t } \right) \right] \frac { \partial f _ { w } \left( s _ { t } , a _ { t } \right) } { \partial w }\]

當$f_w$達到局部最優時，應該有：

\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } \left[ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) \right] = 0\]

結論2表明如果滿足:

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }\]

則有：

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } f _ { w } ( s , a )\]

這樣就通過一個對$Q^\pi(s,a)$的估計函數$f_w$實現了策略梯度的實際計算。

為了滿足$\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }$，本文說明可以通過對$\pi(s,a)$與$f_w(s,a)$的合理構造進行保證，如：

\[\pi ( s , a ) = \frac { e ^ { \theta ^ { T } \phi _ { s a } } } { \sum _ { b } e ^ { \theta ^ { T } \phi _ { s b } } }\]

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) } = \phi _ { s a } - \sum _ { b } \pi ( s , b ) \phi _ { s b }\]

\[f _ { w } ( s , a ) = w ^ { T } \left[ \phi _ { s a } - \sum _ { b } \pi ( s , b ) \phi _ { s b } \right]\]

上面的構造表明了，本文的算法是$f_w(s,a)$關於針對狀態s特征函數的線性逼），但是$\pi(s,a)$函數的選取則可以是多種多樣的，可以采用復雜的非線性形式，只要根據上面的式子重新推導即可。

最后，本文給出了結論3，表明算法的收斂性，即:

\[\lim _ { k \rightarrow \infty } \frac { \partial \rho \left( \pi _ { k } \right) } { \partial \theta } = 0\]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [Reinforcement Learning] Policy Gradient Methods 論文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》的閱讀——強化學習中的策略梯度算法基本形式與部分證明 [Reinforcement Learning] Value Function Approximation 文獻筆記:Deterministic Policy Gradient Algorithms 論文筆記：GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE 文獻筆記:Deep Reinforcement Learning with Double Q-learning 論文筆記之：Asynchronous Methods for Deep Reinforcement Learning 強化學習七 - Policy Gradient Methods DRL之：策略梯度方法　（Policy Gradient Methods）強化學習讀書筆記 - 13 - 策略梯度方法(Policy Gradient Methods)