標簽【SARSA】 - 碼上歡樂

花費 18 ms

上篇文章強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD算法解決強化學習的評估和控制問題，TD對比MC有很多優勢，比如TD有更低方差，可以學習 ...

在上篇文章強化學習——蒙特卡洛 (MC) 采樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題，主要介紹了蒙特卡洛（MC）采樣法的預測與控制問題，這次我們介紹另外一種方法——時序 ...