強化學習策略梯度方法之: REINFORCE 算法 (從原理到代碼實現)
2018-04-01 15:15:42
最近在看policy gradient algorithm, 其中一種比較經典的算法當屬:REINFORCE 算法,已經廣泛的應用於各種計算機視覺任務當中。
【REINFORCE 算法原理推導】
【Pytorch 代碼實現】
該圖像來自於:https://github.com/JamesChuanggg/pytorch-REINFORCE/blob/master/assets/algo.png
上面函數是 離散情況下的,那么,連續領域是什么情況呢?
-------------------------------------------------------------------------------------------------------------------------------------------------
-------------------------------------------------------------------------------------------------------------------------------------------------
Reference:
1. 參考博文:http://www.tuananhle.co.uk/notes/reinforce.html
2. 參考博文:http://www.scholarpedia.org/article/Policy_gradient_methods
3. 代碼實現(Pytorch version)https://github.com/JamesChuanggg/pytorch-REINFORCE
4. REINFORCE 文章鏈接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.129.8871&rep=rep1&type=pdf
5. 書籍:Statistical_Reinforcement_Learning