花费 41 ms
强化学习 6 ——价值函数逼近

上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法,在这两种算法内部都要维护一张 Q 表格 ...

Mon Sep 07 04:54:00 CST 2020 0 539

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM