原文:(十三)从零开始学人工智能-强化学习:值函数近似和策略梯度

强化学习 值函数近似和策略梯度 目录 强化学习 值函数近似和策略梯度 . 值函数近似 . 线性函数近似 . . 状态价值函数近似 . . 动作价值函数近似 . 深度神经网络近似 . 策略梯度 声明 参考资料 前两节内容都是强化学习的一些基础理论 ,只能解决一些中小规模的问题,实际情况下很多价值函数需要一张大表来存储,获取某一状态或动作价值的时候通常需要一个查表操作,这对于某些状态或动作空间很大的问 ...

2020-03-12 08:57 0 731 推荐指数:

查看详情

强化学习(十三) 策略梯度(Policy Gradient)

    在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy ...

Wed Dec 19 02:04:00 CST 2018 92 39820
强化学习(九):策略梯度

Policy Gradient Methods 之前学过的强化学习几乎都是所谓的‘行动-价值’方法,也就是说这些方法先是学习每个行动在特定状态下的价值,之后在每个状态,根据当每个动作的估计价值进行选择。这种方法可看成是一种‘间接’的方法,因为强化学习的目标是如何决策,这些方法把每个动作的价值 ...

Mon Aug 13 08:10:00 CST 2018 0 1981
(六)从零开始学人工智能-搜索:对抗搜索

对抗搜索 目录 对抗搜索 1 为什么要学习对抗搜索? 2 什么是对抗搜索? 3 对抗搜索算法 3.1 极小极大算法 3.1.1 分硬币游戏 3.1.2 最优路径示例 ...

Wed Mar 11 16:35:00 CST 2020 0 665
(二)从零开始学人工智能—数学基础:线性代数

线性代数 上一部分介绍了机器学习的本质是找到一个最优化的映射关系,也就是函数/模型。接下来几章我会陆续给大家介绍AI的数学基础,本章将首先给大家介绍线性代数如何应用于AI。 1. 从初等函数到高等数学 一元线性函数 在中学的初等数学里,把函数\(f(x)=kx+b\) (\(k,b ...

Wed Mar 11 04:15:00 CST 2020 0 663
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM