強化學習的概念、適用場景

本文轉載自查看原文 2020-11-23 21:04 586

1. 概念：強化學習的基本思想是智能體 (Agent) 在與環境交互的過程中根據環境反饋得到的獎勵不斷調整自身的策略以實現最佳決策, 主要用來解決決策優化類的問題。智能體根據環境的狀態（State），通過一個策略函數，輸出一個行為（Action），將行為作用於環境，環境再給予智能體獎勵(Reward)，同時環境會轉移到下一個狀態。最終，找到一個最優的策略，使得智能體可以盡可能多的獲得來自環境的獎勵。整個過程如下圖所示：

看完下面兩個短視頻基本可以知道強化學習是個什么樣子

科普文：https://www.bilibili.com/video/BV13W411Y75P?p=1

https://www.bilibili.com/video/BV13W411Y75P?p=2

2. 應用場景：https://zhuanlan.zhihu.com/p/78191585

有篇論文談到應用到電力市場中，http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1013347901.nh&dbcode=CDFD&dbname=CDFD2013

3. 優缺點：強化學習不需要標記大量的數據集；目標導向型···

https://www.pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/

放3個bilibili強化學習課程：

https://www.bilibili.com/video/BV13W411Y75P

https://www.bilibili.com/video/BV1yv411i7xd

https://www.bilibili.com/video/BV1kA41177Na

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【強化學習RL】必須知道的基礎概念和MDP 分布式強化學習基礎概念（Distributional RL ）強化學習總結強化學習——入門強化學習（MATLAB）什么是強化學習？強化學習雜談強化學習之CartPole MongoDB的適用場景【強化學習篇】--強化學習案例詳解一