【強化學習篇】--強化學習案例詳解一

本文轉載自查看原文 2018-06-30 23:09 2695 強化學習

一、前述

本文通過一個案例來講解Q-Learning

二、具體

1、案例

假設我們需要走到5房間。

轉變為如下圖：先構造獎勵，達到5，即能夠走得5的action則說明獎勵比較高設置成100，沒有達到5說明獎勵比較低，設置成0。

Q-learning實現步驟：

2、案例詳解：

第一步的Q(1,5)：最開始的Q矩陣都是零矩陣，迭代完之后Q（1,5）是100

第二次迭代：依舊是隨機

收斂的意思是最后Q基本不變了，然后歸一化操作，所有值都除以500，然后計算百分比。

則最后的分值填充如下：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習強化學習總結強化學習——入門強化學習（MATLAB）什么是強化學習？強化學習雜談強化學習之CartPole 什么是強化學習？強化學習和ADP（上）強化學習