本人碩士期間就對RL比較感興趣,當時AlpahGo還沒火,可能更多是對於Strong AI的前景和未來有着較大期待吧,后來隨着AlphaGo--Master---zero版本的不斷更新,再加上OpenAI的星際爭霸等,RL逐步煥發出了新的生機。因此,自從2016年下半年開始斷斷續續地學習強化學習到現在,中間因為要發各種paper,斷斷續續地看了一遍,只有一個大致印象,但了解不夠深入,僅停留在表面。現在靜下心來,開始第二遍系統學習,打算借着博客來對所學進行總結,爭取有更深入的理解吧,也希望能和大家多多交流、相互學習,中間的見解可能比較淺顯,還希望各位大神、大牛能多多批評指正,促進自己更好地學習。
自從2015年以來,關於RL的資料、教程越來越多,有些寫的非常不錯,比如莫凡python、天津包子餡的知乎專欄、其他一些博客等,還有一些視頻課程也非常多,比如Divid silver在UCL的授課、優達學城的課程、伯克利、斯坦福的大學課程等,考慮到本人的實際,不習慣英文課程,看不到一半就堅持不住了,還是比較喜歡看教材、博客和代碼,經過一番對比考量,本人此次RL學習的主要參考資料如下:
1.Reinforcement Learning: An Introduction.Second edition, in process.(2017 Draft). 這是自己的主要參考教材,也建議大家多看幾遍,書里面有全套的對應github代碼(matlab、C、python版本都有,網上很方便可以找到)。RL經典教材,現代強化學習之父sutton的著作,非常詳細,由淺入深、娓娓道來,感覺入門是非常合適的。本人英語水平及其一般(CET6 < 500),但讀起來並不覺得特別費勁兒,每次讀感覺收獲都很多。
2.莫凡python系列教程。對於python、機器學習、神經網絡等都有介紹,建議整個教程都可以反復讀看幾遍,RL部分雖然都是一些基本算法,但手把手教的可不多,小白入門必備,自己也打算再多看幾遍。
3.已有的博客系列:(這里只列舉幾個自己收藏的,配合上面的書和視頻,對比着看效果會更好)
a).http://www.cnblogs.com/steven-yang/p/6481772.html
b).http://www.cnblogs.com/jinxulin/p/3511298.html
c). http://www.algorithmdog.com/ml/rl-series
d).https://zhuanlan.zhihu.com/p/28563483
其他還有一些比較好的進階版教材,比如Reinforcement Learning State-of-Art (Wiering M.A.)、強化學習原理及應用(王雪松2014版,介紹感覺比較全,但感覺不適合當作教材學習,適當看看就行)還有其他一些國外近幾年的博士論文、各種頂會、期刊論文等,難度層次也略大,這些就因人而異,畢竟RL的方向很多,不是每一個都適合自己,但建議多讀讀多涉獵一些,每個論文都有自己看RL的角度,或許從別人的論文中看你能發現一些屬於自己的東西,這應該是多讀論文的意義吧。這些進階版內容后續會找時間分享總結吧。
RL基本介紹
既然是總結,那就不能長篇大論的描述,否則不是抄書么,干脆把sutton的書翻譯一遍得了,其實是自己一度想翻譯的,但工作量是在太大了~~不說廢話,只把自己總結出來的干貨展現出來就行了。
1. What is RL? Why learn RL?
答:RL是一種以目標為直接導向、基於馬爾科夫的序列決策方法,本質就是追求最大回報,尋找對應的最優策略。現代RL方法大體可分為三個分支:Trial and error 分支(1980s前后)、基於值函數和動態規划的優化控制(包括現在還很火的ADP,基本都算是RL的分支)、以sutton為代表的TD算法及后續系列(也是現在RL的主流方法)。RL是機器學習的四個組成部分之一(其他為監督學習、無監督學習、遷移學習)。
RL的思想決定了它是通往Strong AI的必經之路,這也是為什么國外很多大牛願意將其作為博士課題的原因。盡管RL已經發展了近三十年,並且這幾年做的工作也非常多,但這些都只是皮毛而已,離Strong AI還非常遠,自身發展也遠遠沒有什么大的突破(包括AlphaGo系列,並沒有理論上的大創新,還是以前的算法和思想,只是工程實現做的非常好,當然這也很了不起了),可以繼續做的內容也是非常多的。 RL的學習過程其實很奇怪,你可以跑幾個算法如Q-learning、sarsa、DQN等的程序,做幾個不一樣的應用就說我會RL了(這是我學習初期的表現),但當自己開始設計一些算法,實際做一些東西的時候,會發現還是啥也不會。這也使得我總感覺自己並沒有真正入門,但又說不上來,因此就打算重新從頭開始學習,希望自己不只是懂那些基本算法,更能深入地了解RL,厚積薄發,由基礎看到前沿吧。
2.RL---個人看法。
a.相比於其他領域,機器學習的發展可以說是非常緩慢的(指基礎研究領域,個人看法,僅供參考),RL也是如此,雖然你可以說現在圍棋都被攻破了,這是多么大的成就,但懂行的都知道,這個過程中,RL的基礎研究取得的進展並不大,更多的依賴於深度網絡和很多工程實現的技巧,本身算法研究並沒有大的進步。
b.RL的訓練樣本也是非常巨大的,尤其是面對一些復雜問題,這個難題現在依然無法徹底解決。
c.當狀態過多時,維數災難問題依然可怕。
3.RL的幾個主要研究方向
a.多智能體強化學習。
b.帶有遷移屬性的強化學習.
c.元強化學習。
d.分層強化學習。
e.強化學習與神經生物學的聯系。
