原文:用Q-learning算法实现自动走迷宫机器人

项目描述: 在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。 如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱 红色炸弹 及终点 蓝色的目标点 两种情景。机器人要尽量避开陷阱 尽快到达目的地。 小车可执行的动作包括:向上走u 向右走r 向下走d 向左走l。 执行不同的动作后,根据不同的情况会获得不同的奖励,具体而言,有以下几种情况。 撞到墙壁: 走到终点: 走到陷阱: 其余情 ...

2019-05-31 10:55 0 874 推荐指数:

查看详情

强化学习 - 机器人迷宫

强化学习 - 机器人迷宫 通过这篇文章,分享基于Udacity的机器人迷宫项目,使用强化学习实现; 问题描述 规则、需求如下: 智能机器人显示在右上角,在迷宫中,有陷阱(红色炸弹)及终点(蓝色的目标点)两种情景,机器人要尽量避开陷阱、尽快到达目的地; 机器人可执行的动作 ...

Sun Sep 29 05:44:00 CST 2019 0 829
Q-learning算法介绍(2)

前面我们介绍了Q-learning算法的原理,现在我们就一步一步地用实际数值演示一下,给大家一个更直观的认识。 首先我们选择Gamma值的初值为0.8,agent的初始位置是房间1,前面显示的R矩阵不变,Q矩阵所有值都被初始化为0。 由于起始位置是房间1,所以我们先看R矩阵的第二行 ...

Sat Apr 25 11:18:00 CST 2020 0 872
Q-learning算法介绍(1)

我们在这里使用一个简单的例子来介绍Q-learning的工作原理。下图是一个房间的俯视图,我们的智能体agent要通过非监督式学习来了解这个陌生的环境。图中的0到4分别对应一个房间,5对应的是建筑物周围的环境。如果房间之间有一个门,那么这2个房间就是直接相通的,否则就要通过其他房间相通 ...

Fri Apr 24 16:06:00 CST 2020 0 885
强化学习 5 —— SARSA 和 Q-Learning算法代码实现

上篇文章 强化学习——时序差分 (TD) --- SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点,因此现在主流 ...

Mon Aug 10 23:34:00 CST 2020 1 914
【强化学习】python 实现 q-learning 迷宫通用模板

本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10145797.html 0.说明 这里提供了二维迷宫问题的一个比较通用的模板,拿到后需要修改的地方非常少。 对于任意的二维迷宫的 class Agent,只需修改三个地方 ...

Thu Dec 20 04:31:00 CST 2018 3 1968
强化学习——Q-learning算法

假设有这样的房间 如果将房间表示成点,然后用房间之间的连通关系表示成线,如下图所示: 这就是房间对应的图。我们首先将agent(机器人)处于任何一个位置,让他自己走动 ...

Wed Jun 26 17:27:00 CST 2019 1 3283
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM