原文:强化学习(四)用蒙特卡罗法(MC)求解

在强化学习 三 用动态规划 DP 求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型 P 都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢 本文要讨论的蒙特卡罗 Monte Calo, MC 就是一 ...

2018-08-17 18:04 84 25999 推荐指数:

查看详情

强化学习-蒙特卡罗法

1. 前言 从本章起,我们开始解决更贴近实际的问题。前面提到我们接触过的问题有一个特点,即我们可以知道环境运转的细节,具体说就是知道状态转移概率\(P(s_{t+1}|s_t,a_t)\)。对蛇棋来 ...

Mon Feb 18 06:09:00 CST 2019 0 1717
强化学习(二)—— 蒙特卡洛方法求解

1、“无模型学习”的基本概念   在前一章中提到的基于动态规划的策略迭代和值迭代求解强化学习都属于“有模型学习”,都是在需要知道状态转移概率矩阵的前提下才能适用的算法。然而在现实很多场景中,我们无法获得环境信息,也就是状态转移概率矩阵未知。此时我们无法再利用策略迭代和值迭代算法来求解,需要提出 ...

Thu Nov 15 23:20:00 CST 2018 0 1158
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

    在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search ...

Tue Mar 05 01:09:00 CST 2019 10 12922
DQN(Deep Q-learning)入门教程(三)之蒙特卡罗法算法与Q-learning算法

蒙特卡罗法 在介绍Q-learing算法之前,我们还是对蒙特卡罗法MC)进行一些介绍。MC方法是一种无模型(model-free)的强化学习方法,目标是得到最优的行为价值函数\(q_*\)。在前面一篇博客中,我们所介绍的动态规划算法则是一种有模型的算法。那么问题来了,什么是模型(model ...

Thu May 28 10:37:00 CST 2020 0 2830
强化学习6-MC与TD的比较-实战

可以看到 随着学习率的增大,效果越来越好,当学习率为0.5时,已经明显过拟合了 这个是单步的,书上是单回合的,所以不同,后续有空会更新代码 随机行走有个特殊性:两个终点,有一个终点奖励为0,也就是说在前几个回合中,单步更新的TD如果一开始向左走,需要 ...

Tue Feb 19 01:26:00 CST 2019 0 564
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM