重要性采樣(Importance Sampling)——TRPO與PPO的補充
作者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/
上兩篇博客已經介紹了信賴域策略優化(Trust Region Policy Optimization, TRPO)與近端策略優化算法(Proximal Policy Optimization Algorithms, PPO),他們用到一個重要的技巧就是:重要性采樣。但是都需要限制新舊策略使兩者差異不能太大,TRPO通過添加新舊策略的KL約束項,而PPO是限制兩者比率的變化范圍,這究竟是為什么呢?不加這個約束會怎樣?下面通過對重要性采樣進行分析,來解答這個問題。更多強化學習內容,請看:隨筆分類 - Reinforcement Learning。
1. 采樣法(Sampling Method)/蒙特卡羅方法(Monte Carlo Method)
2. 重要性采樣(Importance Sampling)
3. 重新思考TRPO與PPO
4. 參考文獻
[1] 茆詩松, 程依明, 濮曉龍. 概率論與數理統計教程. 高等教育出版社, 2011.
[2] 邱錫鵬,神經網絡與深度學習,機械工業出版社,https://nndl.github.io/, 2020.
[3] 李宏毅, 強化學習課程, https://www.bilibili.com/video/BV1UE411G78S?spm_id_from=333.999.0.0, 2020.