強化學習(David Silver)7:策略梯度算法


1、簡介

1.1、PolicyBased方法優劣

優勢:

更好的收斂特性

在高維或者連續的action空間里面有效

可以學習隨機策略

劣勢:

收斂到局部最優,而非全局最優

policy估計訓練慢、高方差,有時候沒有值函數有效:ValueBased方法使用Max貪心優化跑得快; 策略梯度方法在梯度方向走得慢

1.2、Policy方法的優化目標

這里有三個: 形式都沒有看懂

1.3、Policy方法的優化算法

非梯度算法: 爬山法; 單純性法/amoeba/NelderMead; 生成算法

梯度算法: 梯度/共軛梯度/擬牛頓

2、有限差分策略梯度

2.1、方法

不適用梯度公式, 直接使用梯度的定義來計算梯度

2.2、優缺點

優點: 簡單有效, 不可微也可以計算

缺點: 慢, 效率低

36分鍾的ScoreFunction是什么鬼???

2.3、策略梯度定理

對於任何目標函數, 策略梯度的形式都是一致的:

3、Monte-Carlo策略梯度

使用Monte-Carlo采樣來計算策略梯度

4、Actor-Critic策略梯度

思想: Critic來擬合狀態-動作值函數; Actor用來擬合值函數; 解決MC策略梯度高方差的問題

 

如果發現文中有問題,敬請聯系作者批評指正,真誠歡迎您的指教,謝謝!

微信: legelsr0808

郵箱: legelsr0808@163.com


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM