強化學習：matlab官方文件理解（無代碼）

本文轉載自查看原文 2020-07-28 17:30 718 機器學習

1.強化學習與傳統控制流程對比

傳統控制流程：
強化學習流程：
reference：控制量(一般是根據某個性能指標進行控制：比如滑移率)。
Part of reward function and observations：部分R、部分S，輸入Agent( Agent = RL algorithm+policy)
controller：采用某種控制算法對reference的量進行控制，使之收斂（經典控制理論PID/現代控制理論(State Space Model)/MPC/智能控制算法）。
Policy：策略，是強化學習算法中每一步迭代更新的輸出量。
Actuator commands：（控制器發出的）控制量（比如制動力矩）。
Actions：Agent的輸出，作用於Environment。注意Action是具體的動作，決策a=Π(s)或Π(a|s)是指在某個狀態下做什么樣的動作，這兩個是有區別的。
plant：實體/執行器。
Environment：屬於環境的一部分。
State feedback：反饋信號，構成閉環控制。
Observation：可觀測的狀態變量S。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　2.強化學習5個步驟

Step1：創建環境，這個環境能夠給出獎勵R和狀態變量S
Step2：設計獎勵函數Reward（根據所研究的問題設計獎勵項與懲罰項）
Step3：設計策略（？）
Step4：選擇一種優化算法，對模型進行訓練，迭代得到最優值
Step5：具體應用於某個問題

3.強化學習的"環境"概念理解

4. 強化學習“代理”和“環境”的輸入輸出關系

問題：
1.強化學習=> 馬爾可夫決策：滿足馬爾科夫假設，給時序數據給定了一定假設，隨機變量的時序性，那么價值函數中包含時間信息，回溯圖可以體現時間，那馬爾科夫決策過程示意圖可以體現時間么，還是說時間在價值函數和回報中體現了？
2.Reward如何設定？越接近你想要的目標，獎勵越高；越遠離目標，懲罰越高。
3.強化學習就是“尋找最優決策”的過程。通過尋找最優狀態/狀態動作價值函數，得到Π*，本質是一個最優化問題。
Π*=argmaxQΠ(s,a)。
迭代求解Π，直到Π收斂，得到最好的價值函數，也是最好的決策Π。
4.matlab，simulink, reinforcement learning toolbox
5.實際用強化學習/HMM/GMM/貝葉斯網絡/深度神經網絡解決一個問題。

參考資料：
1.Matlab 官方指導reinforcement learning toolbox:https://ww2.mathworks.cn/products/reinforcement-learning.html
2.
https://www.cnblogs.com/dingdangsunny/p/12559616.html#_label1_1

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習（MATLAB）強化學習代碼實戰強化學習詳解與代碼實現機器學習中強化學習與監督學習、無監督學習和強化學習的區別強化學習強化學習總結強化學習——入門什么是強化學習？強化學習雜談強化學習之CartPole