強化學習-Q-learning學習筆記

本文轉載自查看原文 2019-02-23 10:21 865

Q學習動作探索策略中的ep-greepy,以ep的概率進行隨機探索，以1-ep的概率以最大值策略進行開發，因為設定的迭代次數比較多，所以肯定存在一定的次數去搜索不同的動作。

1）Python版本

b站上的學習教程https://blog.csdn.net/qq_36124802/article/details/79882269，其中的pandas，np是數據處理包。使用其他語言也是可以的，用矩陣代替，主要是用多維矩陣保存數據，然后對矩陣進行計算處理。

2）c語言版本

https://blog.csdn.net/qq_23144435/article/details/80368635

3）C++版本

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp

4）一個完整的unity demo項目，使用c# 語言

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Deep Learning專欄--強化學習之Q-Learning與DQN（2）強化學習 7——Deep Q-Learning（DQN）公式推導強化學習Q-Learning算法詳解強化學習 Q-learning 及python實現 [強化學習論文閱讀(9)]:soft Q-learning 強化學習之二：Q-Learning原理及表與神經網絡的實現（Q-Learning with Tables and Neural Networks）強化學習中的無模型基於值函數的 Q-Learning 和 Sarsa 學習【強化學習RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等【強化學習】python 實現 q-learning 例四（例二改寫）強化學習（八）價值函數的近似表示與Deep Q-Learning