Q-learning和Sarsa的區別 - 碼上歡樂

相關內容簡體繁體

Q-learning和Sarsa的區別

本文轉載自查看原文 2019-08-14 16:56 524 強化學習

Q-learning是off-policy，而Sarsa是on-policy學習。

Q-learning在更新Q table時，它只會需要Q值最大，但是不一定會選擇使這個Q值最大的動作，因為選擇哪個動作是由其他的策略決定的，但是Sarsa在更新Q table時，不一定是Q最大的那個，而且接下來會選擇此Q對應的action。Q-learning屬於勇敢型，無論前方的路上有什么危險，它都會直接走過去，而Sarsa比較保守，一般只是會遠遠的躲過危險。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Q-learning算法介紹（1）強化學習-Q-Learning算法強化學習之Q-learning ^_^ 強化學習之Q-learning簡介文獻筆記:Deep Reinforcement Learning with Double Q-learning 論文筆記之：Deep Reinforcement Learning with Double Q-learning DQN（Deep Q-learning）入門教程（結束）之總結【強化學習】python 實現 q-learning 例一【強化學習】python 實現 q-learning 例五（GUI）深度學習之強化學習Q-Learning

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM