強化學習-Q-learning學習筆記


Q學習動作探索策略中的ep-greepy,以ep的概率進行隨機探索,以1-ep的概率以最大值策略進行開發,因為設定的迭代次數比較多,所以肯定存在一定的次數去搜索不同的動作。

1)Python版本

b站上的學習教程https://blog.csdn.net/qq_36124802/article/details/79882269,其中的pandas,np是數據處理包。使用其他語言也是可以的,用矩陣代替,主要是用多維矩陣保存數據,然后對矩陣進行計算處理。

2)c語言版本

https://blog.csdn.net/qq_23144435/article/details/80368635

 

3)C++版本

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp

4)一個完整的unity demo項目,使用c# 語言

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM