花费 10 ms
强化学习 5 —— SARSA 和 Q-Learning算法代码实现

上篇文章 强化学习——时序差分 (TD) --- SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习 ...

Mon Aug 10 23:34:00 CST 2020 1 914

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM