【文章推薦】RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning

原文：RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布 ICLR ABSTRACT 深度RL已經成功地自動學習了復雜的行為。但是，學習過程需要大量的試驗。相比之下，動物可以通過幾次試驗而學習新的任務，這得益於它們對世界的了解。本文力圖彌合這一差距。與其設計一種快速的RL算法，不如將其表示為RNN並從數據中學習。在我們提出的方法RL 中，該算法以RNN的權重進行編碼，這些權重是通過通用慢速 ...

2020-09-06 16:32 0 606 推薦指數：

查看詳情

Reinforcement Learning

https://www.bilibili.com/video/av9770302/?p=24 https://www.bilibili.com/video/av24724071/?p=3 http ...

Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables 作者：凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji ...

Decision Transformer: Reinforcement Learning via Sequence Modeling

發表時間：2021 文章要點：這篇文章提出了一個Decision Transformer的模型，在offline RL的設定下，不直接去擬合數據，不需要做policy improvement，就可以達到甚至超過offline RL baseline。具體做法很簡單，就是用transformer ...

A Distributional Perspective on Reinforcement Learning

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！ arXiv:1707.06887v1 [cs.LG] 21 Jul 2017 In International Conference on Machine Learning (2017). Abstract ...

Learning to Reinforcement Learn

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！ CogSci, (2017) ABSTRACT 　　近年來，深度RL系統在許多具有挑戰性的任務領域中都獲得了超出人類的性能。但是，此類應用的主要局限性在於它們對大量訓練數據的需求。因此，當前的一個關鍵目標是開發能夠 ...

在Matlab 上使用 Reinforcement learning

在Matlab 上使用 Reinforcement learning 環境搭建在Matlab中安裝Deep Learning Toolbox后安裝Reinforcement Learning Toolbox 什么是強化學習強化學習的最終目標是在未知的環境中訓練一個agent ...

Distributional Reinforcement Learning with Quantile Regression

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！ arXiv:1710.10044v1 [cs.AI] 27 Oct 2017 In AAAI Conference on Art ...

原文：RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning

相關推薦

相關標簽