相關內容簡體繁體

Q -learning入門

本文轉載自查看原文 2021-09-30 19:49 129

算法思想

Q-Learning是強化學習算法中value-based的算法，Q即為Q（s，a），就是在某一個時刻的state狀態下，采取動作a能夠獲得收益的期望，環境會根據agent的動作反饋相應的reward獎賞，
所以算法的主要思想就是將state和action構建成一張Q_table表來存儲Q值，然后根據Q值來選取能夠獲得最大收益的動作。
Q-learning的主要優勢就是使用了時間差分法（融合了蒙特卡洛和動態規划）能夠進行off-policy的學習，使用貝爾曼方程可以對馬爾科夫過程求解最優策略。

算法公式

參數介紹：

Epsilon greedy：是用在決策上的一個策略，比如epsilon = 0.9的時候，就說明百分之90的情況我會按照Q表的最優值選擇行為，百分之10的時間隨機選擇行為。
alpha：學習率，決定這次的誤差有多少是要被學習的。
gamma：對未來reward的衰減值。gamma越接近1，機器對未來的reward越敏感

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 DQN（Deep Q-learning）入門教程（四）之Q-learning Play Flappy Bird 增強學習Q-learning分析與演示（入門） Q-learning算法介紹（2）增強學習 | Q-Learning 強化學習——Q-learning算法 Q-Learning算法簡明教程強化學習（三）—— 時序差分法（SARSA和Q-Learning）【強化學習】python 實現 q-learning 例二強化學習（九）Deep Q-Learning進階之Nature DQN 強化學習 - Q-learning Sarsa 和 DQN 的理解

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM