花费 56 ms
强化学习-时序差分算法(TD)和SARAS法

1. 前言 我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差,模型不是很稳定。本节我们介绍时序差分法,时序差分法 ...

Sat Mar 09 18:50:00 CST 2019 0 1107

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM