標簽【Value_based】

上篇文章強化學習——時序差分 (TD) 控制算法 Sarsa 和 Q-Learning我們主要介紹了 Sarsa 和 Q-Learning 兩種時序差分控制算法，在這兩種算法內部都要維護一張 Q 表格 ...