重要性采樣(Importance Sampling)——TRPO與PPO的補充


重要性采樣(Importance Sampling)——TRPO與PPO的補充

作者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/

    上兩篇博客已經介紹了信賴域策略優化(Trust Region Policy Optimization, TRPO)近端策略優化算法(Proximal Policy Optimization Algorithms, PPO),他們用到一個重要的技巧就是:重要性采樣。但是都需要限制新舊策略使兩者差異不能太大,TRPO通過添加新舊策略的KL約束項,而PPO是限制兩者比率的變化范圍,這究竟是為什么呢?不加這個約束會怎樣?下面通過對重要性采樣進行分析,來解答這個問題。更多強化學習內容,請看:隨筆分類 - Reinforcement Learning

1. 采樣法(Sampling Method)/蒙特卡羅方法(Monte Carlo Method)

2. 重要性采樣(Importance Sampling)

3. 重新思考TRPO與PPO

4. 參考文獻

[1] 茆詩松, 程依明, 濮曉龍. 概率論與數理統計教程. 高等教育出版社, 2011.
[2] 邱錫鵬,神經網絡與深度學習,機械工業出版社,https://nndl.github.io/, 2020.
[3] 李宏毅, 強化學習課程, https://www.bilibili.com/video/BV1UE411G78S?spm_id_from=333.999.0.0, 2020.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM