如下圖所示:
初始點在 S0, 終點在S8, 其中紅線的部分是牆,不能通過,綠色的圓圈是此刻所在位置。
在任一的狀態時可以選的動作其概率都是均等的,如果三個動作可以選就各為0.333333,如果是兩個動作可以選就各是0.5。
原書中已經提供代碼,但是感覺看起來不是很明晰,於是修改了一下:
https://gitee.com/devilmaycry812839668/maze_random
在修改代碼的時候發現下面的一個有意思的事情,就是如果做100000次實驗,那么所走的步數從小到大排序其所占實驗的次數並不是一個高斯形狀的分布,實驗之前原本以為下面的分布會是小步數和大步數的實驗占比較小而處於中間步數的實驗占比大,但是實際情況如下:
感覺這個現象還是蠻有意思的,不知道該如何解釋。
想了想這個結果應該是不同位置在隨機探索條件下探索到的概率不同,這個實驗可以看做是 蒙特卡洛模擬搜索,最終的結果就是在隨機探索(隨機策略下)不同路徑的概率(近似概率,蒙特卡洛法)。
看來計算機這東西光是想還是不行,還是得要代碼跑起來,弄弄實驗才對。