原文:強化學習(五)用時序差分法(TD)求解

在強化學習 四 用蒙特卡羅法 MC 求解中,我們講到了使用蒙特卡羅法來求解強化學習問題的方法,雖然蒙特卡羅法很靈活,不需要環境的狀態轉化概率模型,但是它需要所有的采樣序列都是經歷完整的狀態序列。如果我們沒有完整的狀態序列,那么就無法使用蒙特卡羅法求解了。本文我們就來討論可以不使用完整狀態序列求解強化學習問題的方法:時序差分 Temporal Difference, TD 。 時序差分這一篇對應S ...

2018-08-24 18:23 94 24571 推薦指數:

查看詳情

強化學習 4 —— 時序分法TD)解決無模型預測與控制問題

在上篇文章強化學習——蒙特卡洛 (MC) 采樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題,主要介紹了蒙特卡洛(MC)采樣法的預測與控制問題,這次我們介紹另外一種方法——時序分法TD) 一、時序分采樣法(TD) 對於MC采樣法,如果我們沒有完整的狀態序列 ...

Mon Aug 10 23:32:00 CST 2020 0 660
強化學習-時序分算法(TD)和SARAS法

1. 前言 我們前面介紹了第一個Model Free的模型蒙特卡洛算法。蒙特卡羅法在估計價值時使用了完整序列的長期回報。而且蒙特卡洛法有較大的方差,模型不是很穩定。本節我們介紹時序分法時序分法不需要完整的序列,並且利用Bellman公式和動態規划進行迭代。 2. 時序分和蒙特卡洛比較 ...

Sat Mar 09 18:50:00 CST 2019 0 1107
強化學習(七)時序分離線控制算法Q-Learning

    在強化學習(六)時序分在線控制算法SARSA中我們討論了時序分的在線控制算法SARSA,而另一類時序分的離線控制算法還沒有討論,因此本文我們關注於時序分離線控制算法,主要是經典的Q-Learning算法。     Q-Learning這一篇對應Sutton書的第六章部分和UCL ...

Thu Sep 20 03:32:00 CST 2018 49 20011
強化學習(六)時序分在線控制算法SARSA

    在強化學習(五)用時序分法TD求解中,我們討論了用時序分來求解強化學習預測問題的方法,但是對控制算法的求解過程沒有深入,本文我們就對時序分的在線控制算法SARSA做詳細的討論。     SARSA這一篇對應Sutton書的第六章部分和UCL強化學習課程的第五講部分。 1. ...

Mon Sep 10 03:30:00 CST 2018 34 19216
強化學習6-MC與TD的比較-實戰

可以看到 隨着學習率的增大,效果越來越好,當學習率為0.5時,已經明顯過擬合了 這個是單步的,書上是單回合的,所以不同,后續有空會更新代碼 隨機行走有個特殊性:兩個終點,有一個終點獎勵為0,也就是說在前幾個回合中,單步更新的TD如果一開始向左走,需要 ...

Tue Feb 19 01:26:00 CST 2019 0 564
強化學習(四)用蒙特卡羅法(MC)求解

    在強化學習(三)用動態規划(DP)求解中,我們討論了用動態規划來求解強化學習預測問題和控制問題的方法。但是由於動態規划法需要在每一次回溯更新某一個狀態的價值時,回溯到該狀態的所有可能的后續狀態。導致對於復雜問題計算量很大。同時很多時候,我們連環境的狀態轉化模型$P$都無法知道 ...

Sat Aug 18 02:04:00 CST 2018 84 25999
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM