Q -learning入門


算法思想

Q-Learning是強化學習算法中value-based的算法,Q即為Q(s,a),就是在某一個時刻的state狀態下,采取動作a能夠獲得收益的期望,環境會根據agent的動作反饋相應的reward獎賞,
所以算法的主要思想就是將state和action構建成一張Q_table表來存儲Q值,然后根據Q值來選取能夠獲得最大收益的動作。
Q-learning的主要優勢就是使用了時間差分法(融合了蒙特卡洛和動態規划)能夠進行off-policy的學習,使用貝爾曼方程可以對馬爾科夫過程求解最優策略。

算法公式


參數介紹:

  1. Epsilon greedy:是用在決策上的一個策略,比如epsilon = 0.9的時候,就說明百分之90的情況我會按照Q表的最優值選擇行為,百分之10的時間隨機選擇行為。
  2. alpha:學習率,決定這次的誤差有多少是要被學習的。
  3. gamma:對未來reward的衰減值。gamma越接近1,機器對未來的reward越敏感


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM