花费 35 ms
MOPO: Model-based Offline Policy Optimization

发表时间:2020(NeurIPS 2020) 文章要点:目前主流的offline RL的方法都是model free的,这类方法通常需要将policy限制到data覆盖的集合范围里(support ...

Thu Oct 21 18:42:00 CST 2021 0 129
Neural Discrete Representation Learning(VQ-VAE)

发表时间:2018(NIPS 2017) 文章要点:文章设计了一个新的基于VAE的自编码器Vector Quantised-Variational AutoEncoder (VQ-VAE)。区别在于 ...

Tue Aug 10 14:29:00 CST 2021 0 103

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM