花費 30 ms
強化學習 5 —— SARSA 和 Q-Learning算法代碼實現

上篇文章 強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD算法解決強化學習的評估和控制問題,TD對比MC有很多優勢,比如TD有更低方差,可以學習 ...

Mon Aug 10 23:34:00 CST 2020 1 914

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM