強化學習讀書筆記 - 11 - off-policy的近似方法
學習筆記:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
參照
- Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
- 強化學習讀書筆記 - 00 - 術語和數學符號
- 強化學習讀書筆記 - 01 - 強化學習的問題
- 強化學習讀書筆記 - 02 - 多臂老O虎O機問題
- 強化學習讀書筆記 - 03 - 有限馬爾科夫決策過程
- 強化學習讀書筆記 - 04 - 動態規划
- 強化學習讀書筆記 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
- 強化學習讀書筆記 - 06~07 - 時序差分學習(Temporal-Difference Learning)
- 強化學習讀書筆記 - 08 - 規划式方法和學習式方法
- 強化學習讀書筆記 - 09 - on-policy預測的近似方法
- 強化學習讀書筆記 - 10 - on-policy控制的近似方法
需要了解強化學習的數學符號,先看看這里:
off-policy的近似方法
盡管可以使用第6,7章的方法,修改成為off-policy的近似方法,但是效果不好。
主要原因是:行為策略的分布和目標策略的分布不一致。
off-policy的近似方法的研究現在處於領域的前沿。主要有兩個方向:
- 使用重要樣本的方法,扭曲樣本的分布成為目標策略的分布。這樣就可以使用半梯度遞減方法收斂。
- 開發一個真正的梯度遞減方法,這個方法不依賴於任何分布。
原書這章還遠遠沒有寫完!
這章先停在這里了。