嗯,今天接着來搞五子棋,從五子棋開始給小伙伴們聊AI。 昨天晚上我們已經實現了一個五子棋的邏輯部分,其實講道理,有個規則在,可以開始搞AI了,但是考慮到不夠直觀,我們還是順帶先把五子棋的UI也 ...
嗯,今天接着來搞五子棋,從五子棋開始給小伙伴們聊AI。 昨天晚上我們已經實現了一個五子棋的邏輯部分,其實講道理,有個規則在,可以開始搞AI了,但是考慮到不夠直觀,我們還是順帶先把五子棋的UI也 ...
好久沒有寫過博客了,多久,大概8年???最近重新把寫作這事兒撿起來……最近在折騰AI,寫個AI相關的給團隊的小伙伴們看吧。 搞了這么多年的機器學習,從分類到聚類,從朴素貝葉斯到SVM,從神經網 ...
前言 實例參考MorvanZhou/Reinforcement-learning-with-tensorflow, 更改為PyTorch實現,並增加了幾處優化。實現效果如下。 其中,紅色方塊作為探 ...
上篇文章強化學習——狀態價值函數逼近介紹了價值函數逼近(Value Function Approximation,VFA)的理論,本篇文章介紹大名鼎鼎的DQN算法。DQN算法是 DeepMind 團隊 ...
在上一篇文章強化學習——DQN介紹 中我們詳細介紹了DQN 的來源,以及對於強化學習難以收斂的問題DQN算法提出的兩個處理方法:經驗回放和固定目標值。這篇文章我們就用代碼來實現 DQN 算法 一、環 ...
1. 前言 在前面的章節中我們介紹了時序差分算法(TD)和Q-Learning,當狀態和動作空間是離散且維數不高時可使用Q-Table儲存每個狀態動作對的Q值,而當狀態和動作空間是高維連續時,使用Q ...
花了一天時間大致了解了強化學習一些經典算法,總結成如下筆記。筆記中出現不少流程圖,不是我自己畫的都標了出處。 鋪墊 1. Bellman方程 在介紹強化學習算法之前先介紹一個比較重要的 ...
上篇文章強化學習——詳解 DQN 算法我們介紹了 DQN 算法,但是 DQN 還存在一些問題,本篇文章介紹針對 DQN 的問題的改進算法 一、Double DQN 算法 1、算法介紹 DQN的問 ...
Dueling Network Architectures for Deep Reinforcement Learning 論文地址 DuelingDQN 筆記 基本思路就是\(Q(s,a ...
Deep Recurrent Q-Learning for Partially Observable MDPs 論文地址 DRQN 筆記 DQN 每一個decision time 需要該時刻前 ...