原文:强化学习-蒙特卡罗法

. 前言 从本章起,我们开始解决更贴近实际的问题。前面提到我们接触过的问题有一个特点,即我们可以知道环境运转的细节,具体说就是知道状态转移概率 P s t s t,a t 。对蛇棋来说,我们可以看到蛇棋的棋盘,也就可以了解到整个游戏的全貌,这时我们相当于站在上帝视角,能够看清一切情况。 在很多实际问题中,我们无法得到游戏的全貌,也就是说,状态转移的信息 P s t s t, a t 无法获得。 ...

2019-02-17 22:09 0 1717 推荐指数:

查看详情

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

    在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search ...

Tue Mar 05 01:09:00 CST 2019 10 12922
DQN(Deep Q-learning)入门教程(三)之蒙特卡罗法算法与Q-learning算法

蒙特卡罗法 在介绍Q-learing算法之前,我们还是对蒙特卡罗法(MC)进行一些介绍。MC方法是一种无模型(model-free)的强化学习方法,目标是得到最优的行为价值函数\(q_*\)。在前面一篇博客中,我们所介绍的动态规划算法则是一种有模型的算法。那么问题来了,什么是模型(model ...

Thu May 28 10:37:00 CST 2020 0 2830
强化学习总结(4)--蒙特卡洛方法

大名鼎鼎的蒙特卡洛方法(MC),源自于一个赌城的名字,作为一种计算方法,应用领域众多,主要用于求值。蒙特卡洛方法的核心思想就是:模拟---抽样---估值。 蒙特卡洛的使用条件:1.环境是可模拟的;2.只适合情节性任务(episode tasks)。 蒙特卡洛在强化学习中的应用: 1.完美信息 ...

Fri Dec 08 00:38:00 CST 2017 0 3698
强化学习(二)—— 蒙特卡洛方法求解

1、“无模型学习”的基本概念   在前一章中提到的基于动态规划的策略迭代和值迭代求解强化学习都属于“有模型学习”,都是在需要知道状态转移概率矩阵的前提下才能适用的算法。然而在现实很多场景中,我们无法获得环境信息,也就是状态转移概率矩阵未知。此时我们无法再利用策略迭代和值迭代算法来求解,需要提出 ...

Thu Nov 15 23:20:00 CST 2018 0 1158
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM