《深度強化學習——邊做邊學》第二章在走迷宮任務中隨機探索（修改后的代碼）

本文轉載自查看原文 2020-07-14 16:01 562 強化學習

如下圖所示：

初始點在 S0，終點在S8，其中紅線的部分是牆，不能通過，綠色的圓圈是此刻所在位置。

在任一的狀態時可以選的動作其概率都是均等的，如果三個動作可以選就各為0.333333，如果是兩個動作可以選就各是0.5。

原書中已經提供代碼，但是感覺看起來不是很明晰，於是修改了一下：

在修改代碼的時候發現下面的一個有意思的事情，就是如果做100000次實驗，那么所走的步數從小到大排序其所占實驗的次數並不是一個高斯形狀的分布，實驗之前原本以為下面的分布會是小步數和大步數的實驗占比較小而處於中間步數的實驗占比大，但是實際情況如下：

感覺這個現象還是蠻有意思的，不知道該如何解釋。

想了想這個結果應該是不同位置在隨機探索條件下探索到的概率不同，這個實驗可以看做是 蒙特卡洛模擬搜索，最終的結果就是在隨機探索（隨機策略下）不同路徑的概率（近似概率，蒙特卡洛法）。

看來計算機這東西光是想還是不行，還是得要代碼跑起來，弄弄實驗才對。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習 - 機器人走迷宮強化學習入門之智能走迷宮-價值迭代算法強化學習入門之智能走迷宮-策略迭代算法深度強化學習——TRPO 深度強化學習中稀疏獎勵問題Sparse Reward 強化學習代碼實戰第二章對國家出路的早期探索深度學習和強化學習的關系 Pytorch中的強化學習深度強化學習方向論文整理