原文:Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布 论文笔记:https: zhuanlan.zhihu.com p ,https: zhuanlan.zhihu.com p ICML Abstract 无模型的深度RL算法已在一系列具有挑战性的决策和控制任务中得到证明。但是,这些方法通常面临两个主要挑战:极高的样本复杂度和脆弱的收敛性,这需要进行精细的超参数调整。这两个挑战都严重限制了此 ...

2020-10-18 20:02 0 499 推荐指数:

查看详情

Soft Actor-Critic For Discrete Action Settings

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ABSTRACT   SAC是用于连续动作设置的最先进的RL算法,不适用于离散动作设置。但是,许多重要的设置都涉及离散动作, ...

Sat Nov 14 23:31:00 CST 2020 0 504
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv: Learning, (2019) Abstract   深度RL算法需要大量经验才能学习单个任务。原则上,元强化学习(meta-RL)算法使智能体能够从少量经验中学习新技能,但一些主要挑战阻碍了它们的实用性 ...

Wed Sep 09 07:40:00 CST 2020 0 624
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM