文獻筆記:Policy Gradient Methods for Reinforcement Learning with Function Approximation


本篇論文討論了策略梯度方法的函數逼近問題。首先明確策略梯度的目標函數:最大化策略$\pi$下的累計回報$\rho(\pi)$

\[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \right\}\]

上式是初始狀態為$s_0$的累計回報表達式,事實上,還可以利用策略生成的平穩狀態分布$d^\pi(s)$對$\rho(\pi)$進行加權:

\[\rho ( \pi ) = \lim _ { n \rightarrow \infty } \frac { 1 } { n } E \left\{ r _ { 1 } + r _ { 2 } + \cdots + r _ { n } | \pi \right\} = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \mathcal { R } _ { s } ^ { a }\]

為了改進策略,我們希望能夠按照$\rho(\pi)$的正梯度方向對$\pi$函數進行更新。假設$\theta$是策略函數$\pi$的參數,本文的第一個基本結論為,無論上面哪種形式的$\rho(\pi)$,其梯度都可以被表示為:

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\]

該結論表明$\rho(\pi)$的梯度不涉及$\frac { \partial d ^ { \pi } ( s ) } { \partial \theta }$項,而$d ^ { \pi } ( s )$是可以通過蒙特卡洛模擬得到的,這將為策略梯度方法的計算提供了極大的便利。

 

本文的結論2則解決了針對策略梯度的實際計算問題。假設$f_w$是$Q^\pi(s,a)$的一個估計,w是逼近器$f_w$的參數,則w的更新方向為:

\[\Delta w _ { t } \propto \frac { \partial } { \partial w } \left[ \hat { Q } ^ { \pi } \left( s _ { t } , a _ { t } \right) -\right.f _ { w } \left( s _ { t } , a _ { t } \right) ] ^ { 2 } \propto \left[ \hat { Q } ^ { \pi } \left( s _ { t } , a _ { t } \right) - f _ { w } \left( s _ { t } , a _ { t } \right) \right] \frac { \partial f _ { w } \left( s _ { t } , a _ { t } \right) } { \partial w }\]

當$f_w$達到局部最優時,應該有:

\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } \left[ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) \right] = 0\]

結論2表明如果滿足:

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }\]

則有:

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } f _ { w } ( s , a )\]

這樣就通過一個對$Q^\pi(s,a)$的估計函數$f_w$實現了策略梯度的實際計算。

為了滿足$\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }$,本文說明可以通過對$\pi(s,a)$與$f_w(s,a)$的合理構造進行保證,如:

\[\pi ( s , a ) = \frac { e ^ { \theta ^ { T } \phi _ { s a } } } { \sum _ { b } e ^ { \theta ^ { T } \phi _ { s b } } }\]

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) } = \phi _ { s a } - \sum _ { b } \pi ( s , b ) \phi _ { s b }\]

\[f _ { w } ( s , a ) = w ^ { T } \left[ \phi _ { s a } - \sum _ { b } \pi ( s , b ) \phi _ { s b } \right]\]

上面的構造表明了,本文的算法是$f_w(s,a)$關於針對狀態s特征函數的線性逼),但是$\pi(s,a)$函數的選取則可以是多種多樣的,可以采用復雜的非線性形式,只要根據上面的式子重新推導即可。

 

最后,本文給出了結論3,表明算法的收斂性,即:

\[\lim _ { k \rightarrow \infty } \frac { \partial \rho \left( \pi _ { k } \right) } { \partial \theta } = 0\]

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM