强化学习-Q-learning学习笔记

本文转载自查看原文 2019-02-23 10:21 865

Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索，以1-ep的概率以最大值策略进行开发，因为设定的迭代次数比较多，所以肯定存在一定的次数去搜索不同的动作。

1）Python版本

b站上的学习教程https://blog.csdn.net/qq_36124802/article/details/79882269，其中的pandas，np是数据处理包。使用其他语言也是可以的，用矩阵代替，主要是用多维矩阵保存数据，然后对矩阵进行计算处理。

2）c语言版本

https://blog.csdn.net/qq_23144435/article/details/80368635

3）C++版本

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp

4）一个完整的unity demo项目，使用c# 语言

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Deep Learning专栏--强化学习之Q-Learning与DQN（2）强化学习 7——Deep Q-Learning（DQN）公式推导强化学习Q-Learning算法详解强化学习 Q-learning 及python实现 [强化学习论文阅读(9)]:soft Q-learning 强化学习之二：Q-Learning原理及表与神经网络的实现（Q-Learning with Tables and Neural Networks）强化学习中的无模型基于值函数的 Q-Learning 和 Sarsa 学习【强化学习RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等【强化学习】python 实现 q-learning 例四（例二改写）强化学习（八）价值函数的近似表示与Deep Q-Learning