[強化學習論文筆記(4)]:DuelingDQN


Dueling Network Architectures for Deep Reinforcement Learning

論文地址

DuelingDQN

筆記

基本思路就是\(Q(s,a)\)的值既和state有關,又和action有關。但是兩種"有關"的程度不一樣,或者說影響力不一樣。

對於\(Q(s,a)\) 我們希望它能反應出兩個方面的差異。

  • 對於當前狀態s,能夠很好的區分不同action的影響
  • 對於不同狀態s,能夠很好的區分不同state的影響

所以我們用如下的公式表示\(Q(s,a)\):

\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + A(s,a;\theta,\alpha)\)

但是只使用上面的公式,神經網絡可能會達不到我們想要的結果,我們不能直接接觸到\(V,A\),只是得到的他們的和(結果很可能就跟DQN是一樣的)。但是我們希望A能夠體現動作對value 的影響 ,V能夠體現狀態對value的影響。

所以將公式改為下面這樣。這樣\(Q(s,a_*)=V(s)\),這樣V就真的反應了狀態值,A就是體現不同action 的advantage

\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + (A(s,a;\theta,\alpha)-\underset{a'\in |A|}{max}A(s,a';\theta,\alpha))\)

另一種方式如下,這種方式,V不能體現state value. 但是只是一個小小的偏移,論文中說這樣的實現更加穩定,效果基本相同。

\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + (A(s,a;\theta,\alpha)-\frac{1}{|A|}\sum_{a'\in |A|}A(s,a';\theta,\alpha))\)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM