1、强化学习的样本通过不断与环境进行交互产生,即试错学习,而监督学习的样本由人工收集并标注。
2、强化学习的反馈信息只有奖励,并且是延迟的,而监督学习需要明确的指导信息(每一个状态对应的动作)。
1、强化学习的样本通过不断与环境进行交互产生,即试错学习,而监督学习的样本由人工收集并标注。
2、强化学习的反馈信息只有奖励,并且是延迟的,而监督学习需要明确的指导信息(每一个状态对应的动作)。
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。