
發表時間:2020(NeurIPS 2020)
文章要點:目前主流的offline RL的方法都是model free的,這類方法通常需要將policy限制到data覆蓋的集合范圍里(support),不能泛化到沒見過的狀態上。作者提出Model-based Offline Policy Optimization (MOPO)算法,用model based的方法來做offline RL,同時通過給reward添加懲罰項(soft reward penalty)來描述環境轉移的不確定性(applying them with rewards artificially penalized by the uncertainty of the dynamics.)這種方式相當於在泛化性和風險之間做tradeoff。作者的意思是,這種方式允許算法為了更好的泛化性而承擔一定風險(policy is allowed to take a few risky actions and then return to the confident area near the behavioral distribution without being terminated)。具體做法就是,先根據data去學一堆狀態轉移函數,這個函數是一個用神經網絡表示的關於狀態和reward的高斯分布

有了這個之后,就要在原始reward上添加penalty,添加方式是找這堆dynamics里面最大的協方差的范數,然后reward變成

然后model和reward都有了,就直接上強化算法就好了,文章里用的是SAC。

總結:雖然中間推了幾個公式,說了一下bound,但是最后落實下來其實就是在reward上加了一個uncertainty的penalty的估計,而且作者也說了this estimator lacks theoretical guarantee。就主要還是看效果吧。
疑問:reward penalty里面的F應該是矩陣的Frobenius范數吧?
