Monte Carlo與TD算法

本文轉載自查看原文 2019-01-16 13:49 752 RL

RL 博客：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&view=me&from=space&srchtxt=RL&page=1

轉自：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&id=1128648，感謝分享

Monte carlo 和TD 都是model-free 的估值方法， TD 用於online RL 場景

強化學習中的Model-free問題主要的解決思路來源於統計方法。所謂統計方法又可分為Monte Carlo與TD算法。當學習任務可轉化為episode task形式時，Monte Carlo與TD算法在實現上的不同主要體現在如何更新狀態動作值函數。n-step TD算法則是由兩種不同的值函數更新形式相結合所產生的，所以想要理解n-step TD算法，對Monte Carlo與TD進行透徹地的解析是十分有必要的。

Backup Diagram的區別

Monte Carlo方法：每個執行一個episode task，更新episode開始時的狀態值函數。假設一個episode開始時的狀態為 $S t a r t$

Monte Carlo

TD方法：在任意一個episode task執行過程中所遇到的每個狀態都會被更新，且每個狀態的更新都依賴於下一個狀態的值函數與到達下一個狀態所獲得的獎勵。因為是邊執行episode邊更新值函數，這種方法又被稱為on-line learning。實際上，類似MC方法將執行好的episode的軌跡(trajectory)保存在下來，再依照TD方法更新也可以達到與on-line learning相同的效果，但很明顯，這個方法是off-line learning，也就是說線下與線上學習並不是區分Monte Carlo與TD算法的依據。TD算法的值函數更新可用下圖表示出來：

由上述示意圖可以發現，TD方法的最后一步，也就是對狀態 $S_{n}$

定步長與不定步長，TD方法

定步長與不定步長的更新方法在Bandit問題里就曾討論過，定步長實際上為Recency-Weighted Average，不定步長則是Incremental形式。通常來說，Monte Carlo Prediction采用的是不定步長的值函數更新，TD方法則采用的是定步長形式，但也不是固定的，可以互換使用。理論上來說，定步長與不定步長的通用形式可以寫為：

V n + 1 (S) = V n (S) + α (X - V n (S))

在這個式子中， $α$

Incremental Implementation作為不定步長的一種形式，可以說是比較好的平衡了收斂速度與均值方差之間的矛盾。對於Incremental形式來說，開始需要收斂速度時， $α$

為了解決這個問題，我們可以人為的構造出與原有需要估計的隨機變量 $X$

Y = R e w (S') + V (S')

為什么MC方法中的隨機變量 $X$

例子一：

假設共執行了N個episode，其中到達終態的episode個數分別為N1~N7。估計狀態 $S_{1}$

V (S 1) = \sum 6 i N i R i \sum 6 i N i

如果使用TD方法，對狀態 $S_{1}$

V (S 1) = K 1 V ( S 2 ) + K 2 V ( S 3 ) K 1 + K 2 = \sum 6

至於觀察方差的變化，我們首先將通用的值函數更新方程做一個簡單的化簡：

V n + 1 (S) = V n (S) + α (X - V n (S)) = (1 - α) V n (S)

值函數 $V (S)$

例子二：

如上圖所示，終態只有End1與End2，讓我們假設episode到達End1所獲得的Reward為1，到達End2所獲得的Reward為0。如按照MC方法更新，則值函數通用更新方程中的隨機變量 $X$

P (X = 1) = 0.5

依據方差計算公式，隨機變量 $X$

V a r (X) = E [X 2] - (E [X]) 2 = 0.25

如果我們按照TD方法更新，則可先計算出 $V (S_{2}) = \frac{1}{3}$

P (Y = 1 3 ) = 0.5

TD方法的估計均值誤差是MC方法的1/10，這也就是TD方法通常可以在保持與MC方法相同的估計均值誤差的前提下會以更快的速度收斂的原因（Random Walk問題就很好的應證了這一點，可以參考Sutton書的Figure 6.2與Figure 6.3）。但實際上這也並非是絕對的，MC方法的表現非常仰賴Reward設計與實際的環境，當終態數量很多時，Reward值之間比較接近時，MC方法的估計均值誤差也不一定差。

n-step TD

對於上述的例子二，可將其episode前進的過程分為三個階段或三層（如下圖所示），所構造的待估計隨機變量 $Y = {V (S_{2}), V (S_{3})}$

下面給出2-step TD的Backup Diagram：

2-Step TD

可以寫出n-step TD的構造隨機變量 $Y$

Y = R e w (S n) + V (S n)

通常來說，在進入收斂狀態后，n-step TD的均值估計誤差並不會一定優於1-step TD，但卻可以很好的控制收斂的速度與RMSE之間的平衡，並且n-step TD的優勢在於可以很好與eligibility traces相關聯，這里就不再深入討論，只探討n-step TD本身。

轉載本文請聯系原作者獲取授權，同時請注明本文來自管金昱科學網博客。
鏈接地址：http://blog.sciencenet.cn/blog-3189881-1128648.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 蒙特卡羅算法（Monte Carlo method）解析Monte-Carlo算法(基本原理,理論基礎,應用實踐) [matlab]Monte Carlo模擬學習筆記蒙特卡羅方法（Monte Carlo method）蒙特卡羅(Monte Carlo)方法簡介 Monte-Carlo Dropout，蒙特卡羅 dropout MCMC(Markov Chain Monte Carlo) and Gibbs Sampling 序列蒙特卡羅（Sequential Monte Carlo）蒙特卡洛（Monte Carlo）方法求面積 QuantLib 金融計算——原理之蒙特卡洛（Monte Carlo）