原文:Q-learning和Sarsa的區別

Q learning是off policy,而Sarsa是on policy學習。 Q learning在更新Q table時,它只會需要Q值最大,但是不一定會選擇使這個Q值最大的動作,因為選擇哪個動作是由其他的策略決定的,但是Sarsa在更新Q table時,不一定是Q最大的那個,而且接下來會選擇此Q對應的action。Q learning屬於勇敢型,無論前方的路上有什么危險,它都會直接走過去, ...

2019-08-14 16:56 0 524 推薦指數:

查看詳情

強化學習(三)—— 時序差分法(SARSAQ-Learning

1、時序差分法基本概念   雖然蒙特卡洛方法可以在不知道狀態轉移概率矩陣的前提下,靈活地求解強化學習問題,但是蒙特卡洛方法需要所有的采樣序列都是完整的狀態序列。如果我們沒有完整的狀態序列就無法用蒙特 ...

Fri Nov 16 01:03:00 CST 2018 0 1713
強化學習 - Q-learning Sarsa 和 DQN 的理解

本文用於基本入門理解。 強化學習的基本理論 : R, S, A 這些就不說了。 先設想兩個場景: 一。 1個 5x5 的 格子圖, 里面有一個目標點, 2個死亡點二。 一個迷宮, 一個出發點, 3處 分叉點, 5個死角, 1條活路Q-learning 的概念 其實就是一個算法 ...

Mon Oct 30 19:32:00 CST 2017 1 4237
強化學習 5 —— SARSAQ-Learning算法代碼實現

上篇文章 強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD算法解決強化學習的評估和控制問題,TD對比MC有很多優勢,比如TD有更低方差,可以學習不完整的序列。所以我們可以在策略控制循環中使用TD來代替MC。優於TD算法的諸多優點,因此現在主流 ...

Mon Aug 10 23:34:00 CST 2020 1 914
總結:比較SARSASARSA(lambda)、Q-learning、on policy and off policy

前幾天面試的時候被問到RL一些基礎算法的區別,回來抽空做了一些整理方便加深理解。 On policy與off policy 為了解決強化學習中探索與利用的平衡問題,可以采用兩個策略訓練模型,一個策略為行為策略,用於保持探索性,提供多樣化的數據,不斷優化另一個策略(目標策略 ...

Mon May 13 21:35:00 CST 2019 0 455
Q-learning

強化學習基本介紹 強化學習是一種不同於監督學習和無監督學習的在線學習技術,基本模型圖一所示。它把學習看作是一個“試探一評價”的過程,首先學習系統稱為智能體感知環境狀態,采取某一個動作作用於環境,環境 ...

Tue Jan 02 06:33:00 CST 2018 0 8939
Q-learning算法介紹(2)

前面我們介紹了Q-learning算法的原理,現在我們就一步一步地用實際數值演示一下,給大家一個更直觀的認識。 首先我們選擇Gamma值的初值為0.8,agent的初始位置是房間1,前面顯示的R矩陣不變,Q矩陣所有值都被初始化為0。 由於起始位置是房間1,所以我們先看R矩陣的第二行 ...

Sat Apr 25 11:18:00 CST 2020 0 872
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM