原文:增強學習(五)----- 時間差分學習(Q learning, Sarsa learning)

接下來我們回顧一下動態規划算法 DP 和蒙特卡羅方法 MC 的特點,對於動態規划算法有如下特性: 需要環境模型,即狀態轉移概率 P sa 狀態值函數的估計是自舉的 bootstrapping ,即當前狀態值函數的更新依賴於已知的其他狀態值函數。 相對的,蒙特卡羅方法的特點則有: 可以從經驗中學習不需要環境模型 狀態值函數的估計是相互獨立的 只能用於episode tasks 而我們希望的算法是這樣 ...

2016-01-09 14:22 3 44243 推薦指數:

查看詳情

增強學習 | Q-Learning

歸為基於策略的增強學習方法。 此外,增強學習方法還有基於價值以及基於模型兩類主要方法。本文介紹第二類,先從 ...

Sat Jul 08 06:32:00 CST 2017 0 1144
強化學習 - Q-learning Sarsa 和 DQN 的理解

本文用於基本入門理解。 強化學習的基本理論 : R, S, A 這些就不說了。 先設想兩個場景: 一。 1個 5x5 的 格子圖, 里面有一個目標點, 2個死亡點二。 一個迷宮, 一個出發點, 3處 分叉點, 5個死角, 1條活路Q-learning 的概念 其實就是一個算法 ...

Mon Oct 30 19:32:00 CST 2017 1 4237
強化學習 5 —— SARSAQ-Learning算法代碼實現

上篇文章 強化學習——時序 (TD) --- SARSA and Q-Learning 我們介紹了時序TD算法解決強化學習的評估和控制問題,TD對比MC有很多優勢,比如TD有更低方差,可以學習不完整的序列。所以我們可以在策略控制循環中使用TD來代替MC。優於TD算法的諸多優點,因此現在主流 ...

Mon Aug 10 23:34:00 CST 2020 1 914
Q-learningSarsa的區別

Q-learning是off-policy,而Sarsa是on-policy學習Q-learning在更新Q table時,它只會需要Q值最大,但是不一定會選擇使這個Q值最大的動作,因為選擇哪個動作是由其他的策略決定的,但是Sarsa在更新Q table時,不一定是Q最大的那個,而且接下 ...

Thu Aug 15 00:56:00 CST 2019 0 524
強化學習中的無模型 基於值函數的 Q-LearningSarsa 學習

強化學習基礎: 注: 在強化學習中 獎勵函數和狀態轉移函數都是未知的,之所以有已知模型的強化學習解法是指使用采樣估計的方式估計出獎勵函數和狀態轉移函數,然后將強化學習問題轉換為可以使用動態規划求解的已知模型問題。 強化學習問題由於采用了MDP ...

Thu Mar 07 06:11:00 CST 2019 0 1310
增強學習Q-learning分析與演示(入門)

這篇寫的是不太對的,詳細還是找個靠譜的吧! 一些說明、參閱 https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents ...

Sat Sep 14 04:32:00 CST 2019 0 1617
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM