Learning from delayed reward (Q-Learning的提出) （Watkins博士畢業論文）（建立了現在的reinforcement Learning模型）

本文轉載自查看原文 2019-01-11 20:47 905 強化學習/ 雜談

最近在在學習強化學習方面的東西，對於現有的很多文章中關於強化學習的知識很是不理解，很多都是一個公式套一個公式，也沒有什么太多的解釋，感覺像是在看天書一般，經過了較長時間的掙扎最后決定從一些基礎的東西開始入手，於是便有了這篇論文的發現。

Learning from Delayed Reward

該論文的頁面為： http://www.cs.rhul.ac.uk/~chrisw/thesis.html

下載地址為： http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

論文頁面對這篇文章的描述：

The thesis introduces the notion of reinforcement learning as learning to control a Markov Decision Process by incremental dynamic programming,

and describes a range of algorithms for doing this, including Q-learning, for which a sketch of a proof of convergence is given.

這篇文章雖然在現有的很多文獻中並不是很被提及，但是它卻具有很大的意義。這篇文章（准確的說是作者在1987年發表的一篇會議論文，集成在了這篇學位論文中了）建立了現在意義上的強化學習模型，它第一次將trial-and-error 和 dynammic programming 和 temporal diffecrence 結合在了一起，並提出了Q-Learning算法。在某種意義上它可謂是“萬惡之源”。

=====================================================

============================================================

文章目錄：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [強化學習論文閱讀(9)]:soft Q-learning 讀《Simple statistical gradient-following algorithms for connectionist reinforcement learning》論文提出Reinforce算法的論文 Q-learning 博士生畢業時要寫的「畢業論文」和之前發表在期刊上的「學術論文」定位有什么不同？畢業論文編寫筆記 Q-learning簡明實例論文筆記之：Deep Recurrent Q-Learning for Partially Observable MDPs 論文筆記之：Continuous Deep Q-Learning with Model-based Acceleration 畢業論文選題之開題報告強化學習中的無模型基於值函數的 Q-Learning 和 Sarsa 學習