強化學習 6 ——價值函數逼近
上篇文章強化學習——時序差分 (TD) 控制算法 Sarsa 和 Q-Learning我們主要介紹了 Sarsa 和 Q-Learning 兩種時序差分控制算法,在這兩種算法內部都要維護一張 Q 表格 ...
上篇文章強化學習——時序差分 (TD) 控制算法 Sarsa 和 Q-Learning我們主要介紹了 Sarsa 和 Q-Learning 兩種時序差分控制算法,在這兩種算法內部都要維護一張 Q 表格 ...