強化學習的概念、適用場景


1. 概念:強化學習的基本思想是智能體 (Agent) 在與環境交互的過程中根據環境反饋得到的獎勵不斷調整自身的策略以實現最佳決策, 主要用來解決決策優化類的問題。智能體根據環境的狀態(State),通過一個策略函數,輸出一個行為(Action),將行為作用於環境,環境再給予智能體獎勵(Reward),同時環境會轉移到下一個狀態。最終,找到一個最優的策略,使得智能體可以盡可能多的獲得來自環境的獎勵。整個過程如下圖所示:

                                

 

 看完下面兩個短視頻基本可以知道強化學習是個什么樣子 

 科普文:https://www.bilibili.com/video/BV13W411Y75P?p=1

                https://www.bilibili.com/video/BV13W411Y75P?p=2

2. 應用場景:https://zhuanlan.zhihu.com/p/78191585

   有篇論文談到應用到電力市場中,http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1013347901.nh&dbcode=CDFD&dbname=CDFD2013

3. 優缺點:強化學習不需要標記大量的數據集;目標導向型···

     https://www.pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/

    放3個bilibili強化學習課程:

    https://www.bilibili.com/video/BV13W411Y75P

    https://www.bilibili.com/video/BV1yv411i7xd

    https://www.bilibili.com/video/BV1kA41177Na

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM