强化学习的概念、适用场景

本文转载自查看原文 2020-11-23 21:04 586

1. 概念：强化学习的基本思想是智能体 (Agent) 在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策, 主要用来解决决策优化类的问题。智能体根据环境的状态（State），通过一个策略函数，输出一个行为（Action），将行为作用于环境，环境再给予智能体奖励(Reward)，同时环境会转移到下一个状态。最终，找到一个最优的策略，使得智能体可以尽可能多的获得来自环境的奖励。整个过程如下图所示：

看完下面两个短视频基本可以知道强化学习是个什么样子

科普文：https://www.bilibili.com/video/BV13W411Y75P?p=1

https://www.bilibili.com/video/BV13W411Y75P?p=2

2. 应用场景：https://zhuanlan.zhihu.com/p/78191585

有篇论文谈到应用到电力市场中，http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1013347901.nh&dbcode=CDFD&dbname=CDFD2013

3. 优缺点：强化学习不需要标记大量的数据集；目标导向型···

https://www.pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/

放3个bilibili强化学习课程：

https://www.bilibili.com/video/BV13W411Y75P

https://www.bilibili.com/video/BV1yv411i7xd

https://www.bilibili.com/video/BV1kA41177Na

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 强化学习（基本概念）命令模式-1.基本概念/适用场景【强化学习RL】必须知道的基础概念和MDP 分布式强化学习基础概念（Distributional RL ） volatile的适用场景强化学习强化学习总结强化学习——入门强化学习（MATLAB）什么是强化学习？