原文:用Q-learning算法實現自動走迷宮機器人

項目描述: 在該項目中,你將使用強化學習算法,實現一個自動走迷宮機器人。 如上圖所示,智能機器人顯示在右上角。在我們的迷宮中,有陷阱 紅色炸彈 及終點 藍色的目標點 兩種情景。機器人要盡量避開陷阱 盡快到達目的地。 小車可執行的動作包括:向上走u 向右走r 向下走d 向左走l。 執行不同的動作后,根據不同的情況會獲得不同的獎勵,具體而言,有以下幾種情況。 撞到牆壁: 走到終點: 走到陷阱: 其余情 ...

2019-05-31 10:55 0 874 推薦指數:

查看詳情

強化學習 - 機器人迷宮

強化學習 - 機器人迷宮 通過這篇文章,分享基於Udacity的機器人迷宮項目,使用強化學習實現; 問題描述 規則、需求如下: 智能機器人顯示在右上角,在迷宮中,有陷阱(紅色炸彈)及終點(藍色的目標點)兩種情景,機器人要盡量避開陷阱、盡快到達目的地; 機器人可執行的動作 ...

Sun Sep 29 05:44:00 CST 2019 0 829
Q-learning算法介紹(2)

前面我們介紹了Q-learning算法的原理,現在我們就一步一步地用實際數值演示一下,給大家一個更直觀的認識。 首先我們選擇Gamma值的初值為0.8,agent的初始位置是房間1,前面顯示的R矩陣不變,Q矩陣所有值都被初始化為0。 由於起始位置是房間1,所以我們先看R矩陣的第二行 ...

Sat Apr 25 11:18:00 CST 2020 0 872
Q-learning算法介紹(1)

我們在這里使用一個簡單的例子來介紹Q-learning的工作原理。下圖是一個房間的俯視圖,我們的智能體agent要通過非監督式學習來了解這個陌生的環境。圖中的0到4分別對應一個房間,5對應的是建築物周圍的環境。如果房間之間有一個門,那么這2個房間就是直接相通的,否則就要通過其他房間相通 ...

Fri Apr 24 16:06:00 CST 2020 0 885
強化學習 5 —— SARSA 和 Q-Learning算法代碼實現

上篇文章 強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD算法解決強化學習的評估和控制問題,TD對比MC有很多優勢,比如TD有更低方差,可以學習不完整的序列。所以我們可以在策略控制循環中使用TD來代替MC。優於TD算法的諸多優點,因此現在主流 ...

Mon Aug 10 23:34:00 CST 2020 1 914
【強化學習】python 實現 q-learning 迷宮通用模板

本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10145797.html 0.說明 這里提供了二維迷宮問題的一個比較通用的模板,拿到后需要修改的地方非常少。 對於任意的二維迷宮的 class Agent,只需修改三個地方 ...

Thu Dec 20 04:31:00 CST 2018 3 1968
強化學習——Q-learning算法

假設有這樣的房間 如果將房間表示成點,然后用房間之間的連通關系表示成線,如下圖所示: 這就是房間對應的圖。我們首先將agent(機器人)處於任何一個位置,讓他自己走動 ...

Wed Jun 26 17:27:00 CST 2019 1 3283
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM