标签【论文速读】

发表时间：2021 文章要点：这篇文章提出了一个Decision Transformer的模型，在offline RL的设定下，不直接去拟合数据，不需要做policy improvement，就可以 ...

发表时间：2020（NeurIPS 2020）文章要点：目前主流的offline RL的方法都是model free的，这类方法通常需要将policy限制到data覆盖的集合范围里（support ...

发表时间：2018（NIPS 2017）文章要点：文章设计了一个新的基于VAE的自编码器Vector Quantised-Variational AutoEncoder (VQ-VAE)。区别在于 ...