最近在在學習強化學習方面的東西, 對於現有的很多文章中關於強化學習的知識很是不理解,很多都是一個公式套一個公式,也沒有什么太多的解釋,感覺像是在看天書一般,經過了較長時間的掙扎最后決定從一些基礎的東西開始入手,於是便有了這篇論文的發現。
Learning from Delayed Reward
該論文的頁面為: http://www.cs.rhul.ac.uk/~chrisw/thesis.html
下載地址為: http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf
論文頁面對這篇文章的描述:
The thesis introduces the notion of reinforcement learning as learning to control a Markov Decision Process by incremental dynamic programming,
and describes a range of algorithms for doing this, including Q-learning, for which a sketch of a proof of convergence is given.
這篇文章雖然在現有的很多文獻中並不是很被提及,但是它卻具有很大的意義。這篇文章(准確的說是作者在1987年發表的一篇會議論文,集成在了這篇學位論文中了)建立了現在意義上的強化學習模型,它第一次將trial-and-error 和 dynammic programming 和 temporal diffecrence 結合在了一起,並提出了Q-Learning算法。在某種意義上它可謂是“萬惡之源”。
=====================================================
============================================================
文章目錄: