算法思想
Q-Learning是強化學習算法中value-based的算法,Q即為Q(s,a),就是在某一個時刻的state狀態下,采取動作a能夠獲得收益的期望,環境會根據agent的動作反饋相應的reward獎賞,
所以算法的主要思想就是將state和action構建成一張Q_table表來存儲Q值,然后根據Q值來選取能夠獲得最大收益的動作。
Q-learning的主要優勢就是使用了時間差分法(融合了蒙特卡洛和動態規划)能夠進行off-policy的學習,使用貝爾曼方程可以對馬爾科夫過程求解最優策略。

算法公式

參數介紹:
- Epsilon greedy:是用在決策上的一個策略,比如epsilon = 0.9的時候,就說明百分之90的情況我會按照Q表的最優值選擇行為,百分之10的時間隨機選擇行為。
- alpha:學習率,決定這次的誤差有多少是要被學習的。
- gamma:對未來reward的衰減值。gamma越接近1,機器對未來的reward越敏感
