Q-learning是off-policy,而Sarsa是on-policy學習。
Q-learning在更新Q table時,它只會需要Q值最大,但是不一定會選擇使這個Q值最大的動作,因為選擇哪個動作是由其他的策略決定的,但是Sarsa在更新Q table時,不一定是Q最大的那個,而且接下來會選擇此Q對應的action。Q-learning屬於勇敢型,無論前方的路上有什么危險,它都會直接走過去,而Sarsa比較保守,一般只是會遠遠的躲過危險。

Q-learning是off-policy,而Sarsa是on-policy學習。
Q-learning在更新Q table時,它只會需要Q值最大,但是不一定會選擇使這個Q值最大的動作,因為選擇哪個動作是由其他的策略決定的,但是Sarsa在更新Q table時,不一定是Q最大的那個,而且接下來會選擇此Q對應的action。Q-learning屬於勇敢型,無論前方的路上有什么危險,它都會直接走過去,而Sarsa比較保守,一般只是會遠遠的躲過危險。

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。