MOPO: Model-based Offline Policy Optimization

本文轉載自查看原文 2021-10-21 10:42 129 Reinforcement Learning/ 論文速讀/ RL

發表時間：2020（NeurIPS 2020）
文章要點：目前主流的offline RL的方法都是model free的，這類方法通常需要將policy限制到data覆蓋的集合范圍里（support），不能泛化到沒見過的狀態上。作者提出Model-based Offline Policy Optimization (MOPO)算法,用model based的方法來做offline RL，同時通過給reward添加懲罰項（soft reward penalty）來描述環境轉移的不確定性（applying them with rewards artificially penalized by the uncertainty of the dynamics.）這種方式相當於在泛化性和風險之間做tradeoff。作者的意思是，這種方式允許算法為了更好的泛化性而承擔一定風險（policy is allowed to take a few risky actions and then return to the confident area near the behavioral distribution without being terminated）。具體做法就是，先根據data去學一堆狀態轉移函數，這個函數是一個用神經網絡表示的關於狀態和reward的高斯分布

有了這個之后，就要在原始reward上添加penalty，添加方式是找這堆dynamics里面最大的協方差的范數，然后reward變成

然后model和reward都有了，就直接上強化算法就好了，文章里用的是SAC。

總結：雖然中間推了幾個公式，說了一下bound，但是最后落實下來其實就是在reward上加了一個uncertainty的penalty的估計，而且作者也說了this estimator lacks theoretical guarantee。就主要還是看效果吧。
疑問：reward penalty里面的F應該是矩陣的Frobenius范數吧?

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習之五：基於模型的強化學習（Model-based RL）論文筆記之：Continuous Deep Q-Learning with Model-based Acceleration Proximal Policy Optimization Algorithms Proximal Policy Optimization Algorithm (PPO) Proximal Policy Optimization(PPO)算法 / 2017 Attention-based Model 【論文閱讀】Optimization-Based Collision Avoidance 信賴域策略優化(Trust Region Policy Optimization, TRPO) Proximal Policy Optimization Algorithm (PPO) 【深度強化學習】近端策略優化算法(Proximal Policy Optimization Algorithms, PPO)