花費 9 ms
[深度學習]實現一個博弈型的AI,從五子棋開始(2)

嗯,今天接着來搞五子棋,從五子棋開始給小伙伴們聊AI。 昨天晚上我們已經實現了一個五子棋的邏輯部分,其實講道理,有個規則在,可以開始搞AI了,但是考慮到不夠直觀,我們還是順帶先把五子棋的UI也 ...

Wed Nov 15 06:43:00 CST 2017 13 15488
[深度學習]實現一個博弈型的AI,從五子棋開始(1)

好久沒有寫過博客了,多久,大概8年???最近重新把寫作這事兒撿起來……最近在折騰AI,寫個AI相關的給團隊的小伙伴們看吧。 搞了這么多年的機器學習,從分類到聚類,從朴素貝葉斯到SVM,從神經網 ...

Tue Nov 14 07:41:00 CST 2017 14 10288
強化學習算法實例DQN代碼PyTorch實現

前言 實例參考MorvanZhou/Reinforcement-learning-with-tensorflow, 更改為PyTorch實現,並增加了幾處優化。實現效果如下。 其中,紅色方塊作為探 ...

Mon Mar 08 04:40:00 CST 2021 0 1441
強化學習 7——Deep Q-Learning(DQN)公式推導

上篇文章強化學習——狀態價值函數逼近介紹了價值函數逼近(Value Function Approximation,VFA)的理論,本篇文章介紹大名鼎鼎的DQN算法。DQN算法是 DeepMind 團隊 ...

Mon Sep 07 04:56:00 CST 2020 0 1999
強化學習 8 —— DQN 算法 Tensorflow 2.0 實現

在上一篇文章強化學習——DQN介紹 中我們詳細介紹了DQN 的來源,以及對於強化學習難以收斂的問題DQN算法提出的兩個處理方法:經驗回放和固定目標值。這篇文章我們就用代碼來實現 DQN 算法 一、環 ...

Mon Sep 07 04:58:00 CST 2020 0 1835
Deep Q Network(DQN)原理解析

1. 前言 在前面的章節中我們介紹了時序差分算法(TD)和Q-Learning,當狀態和動作空間是離散且維數不高時可使用Q-Table儲存每個狀態動作對的Q值,而當狀態和動作空間是高維連續時,使用Q ...

Thu Sep 19 19:08:00 CST 2019 0 1302
強化學習方法小結

花了一天時間大致了解了強化學習一些經典算法,總結成如下筆記。筆記中出現不少流程圖,不是我自己畫的都標了出處。 鋪墊 1. Bellman方程 在介紹強化學習算法之前先介紹一個比較重要的 ...

Tue Dec 24 01:37:00 CST 2019 0 2179
[強化學習論文筆記(4)]:DuelingDQN

Dueling Network Architectures for Deep Reinforcement Learning 論文地址 DuelingDQN 筆記 基本思路就是\(Q(s,a ...

Wed Jan 01 03:27:00 CST 2020 0 957
[強化學習論文筆記(3)]:DRQN

Deep Recurrent Q-Learning for Partially Observable MDPs 論文地址 DRQN 筆記 DQN 每一個decision time 需要該時刻前 ...

Wed Jan 01 01:09:00 CST 2020 0 856

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM