強化學習讀書筆記 - 11 - off-policy的近似方法


強化學習讀書筆記 - 11 - off-policy的近似方法

學習筆記:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

參照

需要了解強化學習的數學符號,先看看這里:

off-policy的近似方法

盡管可以使用第6,7章的方法,修改成為off-policy的近似方法,但是效果不好。
主要原因是:行為策略的分布和目標策略的分布不一致。

off-policy的近似方法的研究現在處於領域的前沿。主要有兩個方向:

  • 使用重要樣本的方法,扭曲樣本的分布成為目標策略的分布。這樣就可以使用半梯度遞減方法收斂。
  • 開發一個真正的梯度遞減方法,這個方法不依賴於任何分布。

原書這章還遠遠沒有寫完!
這章先停在這里了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM