花费 59 ms
[深度学习]实现一个博弈型的AI,从五子棋开始(2)

嗯,今天接着来搞五子棋,从五子棋开始给小伙伴们聊AI。 昨天晚上我们已经实现了一个五子棋的逻辑部分,其实讲道理,有个规则在,可以开始搞AI了,但是考虑到不够直观,我们还是顺带先把五子棋的UI也 ...

Wed Nov 15 06:43:00 CST 2017 13 15488
[深度学习]实现一个博弈型的AI,从五子棋开始(1)

好久没有写过博客了,多久,大概8年???最近重新把写作这事儿捡起来……最近在折腾AI,写个AI相关的给团队的小伙伴们看吧。 搞了这么多年的机器学习,从分类到聚类,从朴素贝叶斯到SVM,从神经网 ...

Tue Nov 14 07:41:00 CST 2017 14 10288
强化学习算法实例DQN代码PyTorch实现

前言 实例参考MorvanZhou/Reinforcement-learning-with-tensorflow, 更改为PyTorch实现,并增加了几处优化。实现效果如下。 其中,红色方块作为探 ...

Mon Mar 08 04:40:00 CST 2021 0 1441
强化学习 7——Deep Q-Learning(DQN)公式推导

上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近(Value Function Approximation,VFA)的理论,本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队 ...

Mon Sep 07 04:56:00 CST 2020 0 1999
强化学习 8 —— DQN 算法 Tensorflow 2.0 实现

在上一篇文章强化学习——DQN介绍 中我们详细介绍了DQN 的来源,以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法:经验回放和固定目标值。这篇文章我们就用代码来实现 DQN 算法 一、环 ...

Mon Sep 07 04:58:00 CST 2020 0 1835
Deep Q Network(DQN)原理解析

1. 前言 在前面的章节中我们介绍了时序差分算法(TD)和Q-Learning,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q ...

Thu Sep 19 19:08:00 CST 2019 0 1302
强化学习方法小结

花了一天时间大致了解了强化学习一些经典算法,总结成如下笔记。笔记中出现不少流程图,不是我自己画的都标了出处。 铺垫 1. Bellman方程 在介绍强化学习算法之前先介绍一个比较重要的 ...

Tue Dec 24 01:37:00 CST 2019 0 2179
[强化学习论文笔记(4)]:DuelingDQN

Dueling Network Architectures for Deep Reinforcement Learning 论文地址 DuelingDQN 笔记 基本思路就是\(Q(s,a ...

Wed Jan 01 03:27:00 CST 2020 0 957
[强化学习论文笔记(3)]:DRQN

Deep Recurrent Q-Learning for Partially Observable MDPs 论文地址 DRQN 笔记 DQN 每一个decision time 需要该时刻前 ...

Wed Jan 01 01:09:00 CST 2020 0 856

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM