強化學習策略梯度方法之: REINFORCE 算法(從原理到代碼實現)


強化學習策略梯度方法之: REINFORCE 算法 (從原理到代碼實現)

2018-04-01  15:15:42  

 

最近在看policy gradient algorithm, 其中一種比較經典的算法當屬:REINFORCE 算法,已經廣泛的應用於各種計算機視覺任務當中。

 

【REINFORCE 算法原理推導】

 

 

 

 

 【Pytorch 代碼實現】

 

 

該圖像來自於:https://github.com/JamesChuanggg/pytorch-REINFORCE/blob/master/assets/algo.png 

 

 

 

 

上面函數是 離散情況下的,那么,連續領域是什么情況呢? 

 

 

 

 

 

 

-------------------------------------------------------------------------------------------------------------------------------------------------

-------------------------------------------------------------------------------------------------------------------------------------------------

Reference:

1. 參考博文:http://www.tuananhle.co.uk/notes/reinforce.html 

2. 參考博文:http://www.scholarpedia.org/article/Policy_gradient_methods 

3. 代碼實現(Pytorch version)https://github.com/JamesChuanggg/pytorch-REINFORCE 

4. REINFORCE 文章鏈接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.129.8871&rep=rep1&type=pdf 

5. 書籍:Statistical_Reinforcement_Learning   

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM