标签【深度强化学习】

嗯，今天接着来搞五子棋，从五子棋开始给小伙伴们聊AI。昨天晚上我们已经实现了一个五子棋的逻辑部分，其实讲道理，有个规则在，可以开始搞AI了，但是考虑到不够直观，我们还是顺带先把五子棋的UI也 ...

好久没有写过博客了，多久，大概8年？？？最近重新把写作这事儿捡起来……最近在折腾AI，写个AI相关的给团队的小伙伴们看吧。搞了这么多年的机器学习，从分类到聚类，从朴素贝叶斯到SVM，从神经网 ...

　　在机器学习中，我们经常会分类为有监督学习和无监督学习，但是尝尝会忽略一个重要的分支，强化学习。有监督学习和无监督学习非常好去区分，学习的目标，有无标签等都是区分标准。如果说监督学习的目标是预测 ...

上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近（Value Function Approximation，VFA）的理论，本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队 ...

转载自https://www.cnblogs.com/zeze/p/8268388.html Progressive NN是第一篇我看到的deepmind做这个问题的。思路就是说我不能忘记第一 ...

当你在win上下载安装好TORCS和patch之后（如果不会请翻看之前的文章），你可以点击安装目录中的wtorcs.exe来启动客户端 TORCS总共有以下竞赛模式其中practice ...

1、安装TORCS的win版本下载地址：https://sourceforge.net/projects/torcs/files/all-in-one/ 注意：安装一切默认即可，记住好安装 ...

【导语】：在深度强化学习第四篇中，讲了Policy Gradient的理论。通过最终推导得到的公式，本文用PyTorch简单实现以下，并且尽可能搞清楚torch.distribution的使用方法。代 ...

转载自https://www.cnblogs.com/wangxiaocvpr/p/9324316.html Proximal Policy Optimization Algorithms ...