一、前述
本文通過一個案例來講解Q-Learning
二、具體
1、案例
假設我們需要走到5房間。

轉變為如下圖:先構造獎勵,達到5,即能夠走得5的action則說明獎勵比較高設置成100,沒有達到5說明獎勵比較低,設置成0。


Q-learning實現步驟:

2、案例詳解:


第一步的Q(1,5):最開始的Q矩陣都是零矩陣,迭代完之后Q(1,5)是100

第二次迭代:依舊是隨機

收斂的意思是最后Q基本不變了,然后歸一化操作,所有值都除以500,然后計算百分比。
則最后的分值填充如下:

一、前述
本文通過一個案例來講解Q-Learning
二、具體
1、案例
假設我們需要走到5房間。

轉變為如下圖:先構造獎勵,達到5,即能夠走得5的action則說明獎勵比較高設置成100,沒有達到5說明獎勵比較低,設置成0。


Q-learning實現步驟:

2、案例詳解:


第一步的Q(1,5):最開始的Q矩陣都是零矩陣,迭代完之后Q(1,5)是100

第二次迭代:依舊是隨機

收斂的意思是最后Q基本不變了,然后歸一化操作,所有值都除以500,然后計算百分比。
則最后的分值填充如下:

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。