1. 概念:强化学习的基本思想是智能体 (Agent) 在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策, 主要用来解决决策优化类的问题。智能体根据环境的状态(State),通过一个策略函数,输出一个行为(Action),将行为作用于环境,环境再给予智能体奖励(Reward),同时环境会转移到下一个状态。最终,找到一个最优的策略,使得智能体可以尽可能多的获得来自环境的奖励。整个过程如下图所示:
看完下面两个短视频基本可以知道强化学习是个什么样子
科普文:https://www.bilibili.com/video/BV13W411Y75P?p=1
https://www.bilibili.com/video/BV13W411Y75P?p=2
2. 应用场景:https://zhuanlan.zhihu.com/p/78191585
有篇论文谈到应用到电力市场中,http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1013347901.nh&dbcode=CDFD&dbname=CDFD2013
3. 优缺点:强化学习不需要标记大量的数据集;目标导向型···
https://www.pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/
放3个bilibili强化学习课程:
https://www.bilibili.com/video/BV13W411Y75P
https://www.bilibili.com/video/BV1yv411i7xd
https://www.bilibili.com/video/BV1kA41177Na