1. 概念:強化學習的基本思想是智能體 (Agent) 在與環境交互的過程中根據環境反饋得到的獎勵不斷調整自身的策略以實現最佳決策, 主要用來解決決策優化類的問題。智能體根據環境的狀態(State),通過一個策略函數,輸出一個行為(Action),將行為作用於環境,環境再給予智能體獎勵(Reward),同時環境會轉移到下一個狀態。最終,找到一個最優的策略,使得智能體可以盡可能多的獲得來自環境的獎勵。整個過程如下圖所示:

看完下面兩個短視頻基本可以知道強化學習是個什么樣子
科普文:https://www.bilibili.com/video/BV13W411Y75P?p=1
https://www.bilibili.com/video/BV13W411Y75P?p=2
2. 應用場景:https://zhuanlan.zhihu.com/p/78191585
有篇論文談到應用到電力市場中,http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1013347901.nh&dbcode=CDFD&dbname=CDFD2013
3. 優缺點:強化學習不需要標記大量的數據集;目標導向型···
https://www.pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/
放3個bilibili強化學習課程:
https://www.bilibili.com/video/BV13W411Y75P
https://www.bilibili.com/video/BV1yv411i7xd
https://www.bilibili.com/video/BV1kA41177Na
