最近組會匯報,由於前一陣聽了中科院的教授講解過這篇論文,於是想到以這篇論文為題做了學習匯報。論文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》雖然發表的時間很早,但是確實很有影響性,屬於這個領域很有里程牌的一篇論文,也是屬於這個領域的研究者多少應該了解些的文章。以下給出根據自己理解做成的PPT。
---------------------------------------------------------------------------------
后注:
其實,很多人覺得這個推導就是多此一舉,這個公式和證明根本沒有必要,因為這個公式本身就是顯而易見的,原因如下:
已知(根據MDP及強化學習的定義有):
公式(1):
公式(2):
而上面的這篇論文通篇要做的就是下面的公式成立,並且滿足逼近函數f為向量且上面的公式(4)及step_size的要求可以收斂到局部最優:
根據后注中的公式(1)和(2),不是直接就可以得到論文中的這個公式嘛,而且而這個公式必然在理想條件下收斂(對整體環境有很好的抽樣的情況下),那么把Q換成逼近函數f ,不是也會收斂的嘛,又何必費力去推導最后還得到一個在多個條件下收斂到局部解的結論,這不是顯而易見的事情還非得花無用功去為了推導公式而去推導公式和證明收斂的嗎?
在此,回答一下 這方面的提問:
首先,要說的就是提出這個問題的人本身就忽略了下面的事情:
與
本身都是對策略依賴的,或者說這兩個item本身就含有策略參數θ , 所以根本就不存在由后注中的(1),(2)公式可以推導出論文的最終公式的形式。
換句話說就是策略pi和Q 對策略參數θ來說都不是常數的,由此才有上面論文中的各種情況下的推導。
對於收斂的問題:
雖然我們可以知道在完全抽樣的情況下策略梯度用策略和Q來表示是收斂的,都是實際Q並不知道,我們需要用函數近似和采樣的方法來獲得,而在這樣的整個動態的學習過程中即要優化策略梯度的參數,又要優化近似函數f的參數,而這樣的情況下是否收斂卻並不知道的。
如果在某個學習過程中 近似函數f 對 Q值的估計 過程收斂到局部最優,則有論文中的公式 (3), 而在近似值函數f 和 策略函數pi 滿足論文中的公式(4),則有論文中的公式(5),(6), 在有對step_size的限制下才有 滿足以上條件的值函數近似策略梯度算法收斂都局部最優的結論。
---------------------------------------