強化學習:matlab官方文件理解(無代碼)


                                  1.強化學習與傳統控制流程對比

傳統控制流程:
強化學習流程:
reference:控制量(一般是根據某個性能指標進行控制:比如滑移率)。
Part of reward function and observations:部分R、部分S,輸入Agent( Agent = RL algorithm+policy)
controller:采用某種控制算法對reference的量進行控制,使之收斂(經典控制理論PID/現代控制理論(State Space Model)/MPC/智能控制算法)。
Policy:策略,是強化學習算法中每一步迭代更新的輸出量。
Actuator commands:(控制器發出的)控制量(比如制動力矩)。
Actions:Agent的輸出,作用於Environment。注意Action是具體的動作,決策a=Π(s)或Π(a|s)是指在某個狀態下做什么樣的動作,這兩個是有區別的。
plant:實體/執行器。
Environment:屬於環境的一部分。
State feedback:反饋信號,構成閉環控制。
Observation:可觀測的狀態變量S。

                             2.強化學習5個步驟

Step1:創建環境,這個環境能夠給出獎勵R和狀態變量S
Step2:設計獎勵函數Reward(根據所研究的問題設計獎勵項與懲罰項)
Step3:設計策略(?)
Step4:選擇一種優化算法,對模型進行訓練,迭代得到最優值
Step5:具體應用於某個問題

                    3.強化學習的"環境"概念理解

         4. 強化學習“代理”和“環境”的輸入輸出關系

 

問題:
1.強化學習=> 馬爾可夫決策:滿足馬爾科夫假設,給時序數據給定了一定假設,隨機變量的時序性,那么價值函數中包含時間信息,回溯圖可以體現時間,那馬爾科夫決策過程示意圖可以體現時間么,還是說時間在價值函數和回報中體現了?
2.Reward如何設定? 越接近你想要的目標,獎勵越高;越遠離目標,懲罰越高。
3.強化學習就是“尋找最優決策”的過程。通過尋找 最優狀態/狀態動作價值函數,得到Π*,本質是一個最優化問題。
Π*=argmaxQΠ(s,a)。
迭代求解Π,直到Π收斂,得到最好的價值函數,也是最好的決策Π。
4.matlab,simulink, reinforcement learning toolbox
5.實際用強化學習/HMM/GMM/貝葉斯網絡/深度神經網絡解決一個問題。

 

參考資料:
1.Matlab 官方指導reinforcement learning toolbox: https://ww2.mathworks.cn/products/reinforcement-learning.html
2.
https://www.cnblogs.com/dingdangsunny/p/12559616.html#_label1_1


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM