Q學習動作探索策略中的ep-greepy,以ep的概率進行隨機探索,以1-ep的概率以最大值策略進行開發,因為設定的迭代次數比較多,所以肯定存在一定的次數去搜索不同的動作。
1)Python版本
b站上的學習教程https://blog.csdn.net/qq_36124802/article/details/79882269,其中的pandas,np是數據處理包。使用其他語言也是可以的,用矩陣代替,主要是用多維矩陣保存數據,然后對矩陣進行計算處理。
2)c語言版本
https://blog.csdn.net/qq_23144435/article/details/80368635
3)C++版本
https://github.com/jinfagang/Q-Learning/blob/master/main.cpp
4)一個完整的unity demo項目,使用c# 語言
https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets
