強化學習-時序差分算法(TD)和SARAS法
1. 前言 我們前面介紹了第一個Model Free的模型蒙特卡洛算法。蒙特卡羅法在估計價值時使用了完整序列的長期回報。而且蒙特卡洛法有較大的方差,模型不是很穩定。本節我們介紹時序差分法,時序差分法 ...
1. 前言 我們前面介紹了第一個Model Free的模型蒙特卡洛算法。蒙特卡羅法在估計價值時使用了完整序列的長期回報。而且蒙特卡洛法有較大的方差,模型不是很穩定。本節我們介紹時序差分法,時序差分法 ...