原文:強化學習(四)用蒙特卡羅法(MC)求解

在強化學習 三 用動態規划 DP 求解中,我們討論了用動態規划來求解強化學習預測問題和控制問題的方法。但是由於動態規划法需要在每一次回溯更新某一個狀態的價值時,回溯到該狀態的所有可能的后續狀態。導致對於復雜問題計算量很大。同時很多時候,我們連環境的狀態轉化模型 P 都無法知道,這時動態規划法根本沒法使用。這時候我們如何求解強化學習問題呢 本文要討論的蒙特卡羅 Monte Calo, MC 就是一 ...

2018-08-17 18:04 84 25999 推薦指數:

查看詳情

強化學習-蒙特卡羅法

1. 前言 從本章起,我們開始解決更貼近實際的問題。前面提到我們接觸過的問題有一個特點,即我們可以知道環境運轉的細節,具體說就是知道狀態轉移概率\(P(s_{t+1}|s_t,a_t)\)。對蛇棋來 ...

Mon Feb 18 06:09:00 CST 2019 0 1717
強化學習(二)—— 蒙特卡洛方法求解

1、“無模型學習”的基本概念   在前一章中提到的基於動態規划的策略迭代和值迭代求解強化學習都屬於“有模型學習”,都是在需要知道狀態轉移概率矩陣的前提下才能適用的算法。然而在現實很多場景中,我們無法獲得環境信息,也就是狀態轉移概率矩陣未知。此時我們無法再利用策略迭代和值迭代算法來求解,需要提出 ...

Thu Nov 15 23:20:00 CST 2018 0 1158
強化學習(十八) 基於模擬的搜索與蒙特卡羅樹搜索(MCTS)

    在強化學習(十七) 基於模型的強化學習與Dyna算法框架中,我們討論基於模型的強化學習方法的基本思路,以及集合基於模型與不基於模型的強化學習框架Dyna。本文我們討論另一種非常流行的集合基於模型與不基於模型的強化學習方法:基於模擬的搜索(Simulation Based Search ...

Tue Mar 05 01:09:00 CST 2019 10 12922
DQN(Deep Q-learning)入門教程(三)之蒙特卡羅法算法與Q-learning算法

蒙特卡羅法 在介紹Q-learing算法之前,我們還是對蒙特卡羅法MC)進行一些介紹。MC方法是一種無模型(model-free)的強化學習方法,目標是得到最優的行為價值函數\(q_*\)。在前面一篇博客中,我們所介紹的動態規划算法則是一種有模型的算法。那么問題來了,什么是模型(model ...

Thu May 28 10:37:00 CST 2020 0 2830
強化學習6-MC與TD的比較-實戰

可以看到 隨着學習率的增大,效果越來越好,當學習率為0.5時,已經明顯過擬合了 這個是單步的,書上是單回合的,所以不同,后續有空會更新代碼 隨機行走有個特殊性:兩個終點,有一個終點獎勵為0,也就是說在前幾個回合中,單步更新的TD如果一開始向左走,需要 ...

Tue Feb 19 01:26:00 CST 2019 0 564
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM