原文:強化學習-蒙特卡羅法

. 前言 從本章起,我們開始解決更貼近實際的問題。前面提到我們接觸過的問題有一個特點,即我們可以知道環境運轉的細節,具體說就是知道狀態轉移概率 P s t s t,a t 。對蛇棋來說,我們可以看到蛇棋的棋盤,也就可以了解到整個游戲的全貌,這時我們相當於站在上帝視角,能夠看清一切情況。 在很多實際問題中,我們無法得到游戲的全貌,也就是說,狀態轉移的信息 P s t s t, a t 無法獲得。 ...

2019-02-17 22:09 0 1717 推薦指數:

查看詳情

強化學習(十八) 基於模擬的搜索與蒙特卡羅樹搜索(MCTS)

    在強化學習(十七) 基於模型的強化學習與Dyna算法框架中,我們討論基於模型的強化學習方法的基本思路,以及集合基於模型與不基於模型的強化學習框架Dyna。本文我們討論另一種非常流行的集合基於模型與不基於模型的強化學習方法:基於模擬的搜索(Simulation Based Search ...

Tue Mar 05 01:09:00 CST 2019 10 12922
DQN(Deep Q-learning)入門教程(三)之蒙特卡羅法算法與Q-learning算法

蒙特卡羅法 在介紹Q-learing算法之前,我們還是對蒙特卡羅法(MC)進行一些介紹。MC方法是一種無模型(model-free)的強化學習方法,目標是得到最優的行為價值函數\(q_*\)。在前面一篇博客中,我們所介紹的動態規划算法則是一種有模型的算法。那么問題來了,什么是模型(model ...

Thu May 28 10:37:00 CST 2020 0 2830
強化學習總結(4)--蒙特卡洛方法

大名鼎鼎的蒙特卡洛方法(MC),源自於一個賭城的名字,作為一種計算方法,應用領域眾多,主要用於求值。蒙特卡洛方法的核心思想就是:模擬---抽樣---估值。 蒙特卡洛的使用條件:1.環境是可模擬的;2.只適合情節性任務(episode tasks)。 蒙特卡洛在強化學習中的應用: 1.完美信息 ...

Fri Dec 08 00:38:00 CST 2017 0 3698
強化學習(二)—— 蒙特卡洛方法求解

1、“無模型學習”的基本概念   在前一章中提到的基於動態規划的策略迭代和值迭代求解強化學習都屬於“有模型學習”,都是在需要知道狀態轉移概率矩陣的前提下才能適用的算法。然而在現實很多場景中,我們無法獲得環境信息,也就是狀態轉移概率矩陣未知。此時我們無法再利用策略迭代和值迭代算法來求解,需要提出 ...

Thu Nov 15 23:20:00 CST 2018 0 1158
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM