强化学习的概念、适用场景


1. 概念:强化学习的基本思想是智能体 (Agent) 在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策, 主要用来解决决策优化类的问题。智能体根据环境的状态(State),通过一个策略函数,输出一个行为(Action),将行为作用于环境,环境再给予智能体奖励(Reward),同时环境会转移到下一个状态。最终,找到一个最优的策略,使得智能体可以尽可能多的获得来自环境的奖励。整个过程如下图所示:

                                

 

 看完下面两个短视频基本可以知道强化学习是个什么样子 

 科普文:https://www.bilibili.com/video/BV13W411Y75P?p=1

                https://www.bilibili.com/video/BV13W411Y75P?p=2

2. 应用场景:https://zhuanlan.zhihu.com/p/78191585

   有篇论文谈到应用到电力市场中,http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1013347901.nh&dbcode=CDFD&dbname=CDFD2013

3. 优缺点:强化学习不需要标记大量的数据集;目标导向型···

     https://www.pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/

    放3个bilibili强化学习课程:

    https://www.bilibili.com/video/BV13W411Y75P

    https://www.bilibili.com/video/BV1yv411i7xd

    https://www.bilibili.com/video/BV1kA41177Na

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM