花費 6 ms
強化學習 6 ——價值函數逼近

上篇文章強化學習——時序差分 (TD) 控制算法 Sarsa 和 Q-Learning我們主要介紹了 Sarsa 和 Q-Learning 兩種時序差分控制算法,在這兩種算法內部都要維護一張 Q 表格 ...

Mon Sep 07 04:54:00 CST 2020 0 539

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM