1、簡介
1.1、PolicyBased方法優劣
優勢:
更好的收斂特性
在高維或者連續的action空間里面有效
可以學習隨機策略
劣勢:
收斂到局部最優,而非全局最優
policy估計訓練慢、高方差,有時候沒有值函數有效:ValueBased方法使用Max貪心優化跑得快; 策略梯度方法在梯度方向走得慢
1.2、Policy方法的優化目標
這里有三個: 形式都沒有看懂
1.3、Policy方法的優化算法
非梯度算法: 爬山法; 單純性法/amoeba/NelderMead; 生成算法
梯度算法: 梯度/共軛梯度/擬牛頓
2、有限差分策略梯度
2.1、方法
不適用梯度公式, 直接使用梯度的定義來計算梯度
2.2、優缺點
優點: 簡單有效, 不可微也可以計算
缺點: 慢, 效率低
36分鍾的ScoreFunction是什么鬼???
2.3、策略梯度定理
對於任何目標函數, 策略梯度的形式都是一致的:
3、Monte-Carlo策略梯度
使用Monte-Carlo采樣來計算策略梯度
4、Actor-Critic策略梯度
思想: Critic來擬合狀態-動作值函數; Actor用來擬合值函數; 解決MC策略梯度高方差的問題
如果發現文中有問題,敬請聯系作者批評指正,真誠歡迎您的指教,謝謝!
微信: legelsr0808
郵箱: legelsr0808@163.com