原文:理解 on-policy 和 off-policy

转自:https: www.cnblogs.com xiachongkun p .html,感谢分享 大名鼎鼎的蒙特卡洛方法 MC ,源自于一个赌城的名字,作为一种计算方法,应用领域众多,主要用于求值。蒙特卡洛方法的核心思想就是:模拟 抽样 估值。 蒙特卡洛的使用条件: .环境是可模拟的 .只适合情节性任务 episode tasks 。 蒙特卡洛在强化学习中的应用: .完美信息博弈:围棋 象棋 ...

2019-01-16 21:07 0 4301 推荐指数:

查看详情

总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy

前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policyoff policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略 ...

Mon May 13 21:35:00 CST 2019 0 455
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM