標簽【Q-Learning】 - 碼上歡樂

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（歡迎關注博 ...

1. 前言在前面的章節中我們介紹了時序差分算法（TD）和Q-Learning，當狀態和動作空間是離散且維數不高時可使用Q-Table儲存每個狀態動作對的Q值，而當狀態和動作空間是高維連續時，使用Q ...

1. 前言 Q-Learning算法也是時序差分算法的一種，和我們前面介紹的SARAS不同的是，SARSA算法遵從了交互序列，根據當前的真實行動進行價值估計；Q-Learning算法沒有遵循交互序列 ...

上篇文章強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD算法解決強化學習的評估和控制問題，TD對比MC有很多優勢，比如TD有更低方差，可以學習 ...

在上篇文章強化學習——蒙特卡洛 (MC) 采樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題，主要介紹了蒙特卡洛（MC）采樣法的預測與控制問題，這次我們介紹另外一種方法——時序 ...