【資料總結】| Deep Reinforcement Learning 深度強化學習


  在機器學習中,我們經常會分類為有監督學習和無監督學習,但是嘗嘗會忽略一個重要的分支,強化學習。有監督學習和無監督學習非常好去區分,學習的目標,有無標簽等都是區分標准。如果說監督學習的目標是預測,那么強化學習就是決策,它通過對周圍的環境不斷的更新狀態,給出獎勵或者懲罰的措施,來不斷調整並給出新的策略。簡單來說,就像小時候你在不該吃零食的時間偷吃了零食,你媽媽知道了會對你做出懲罰,那么下一次就不會犯同樣的錯誤,如果遵守規則,那你媽媽興許會給你一些獎勵,最終的目標都是希望你在該吃飯的時候吃飯,該吃零食的時候吃零食,而不是在不合適的時間吃零食。同樣,曾經風靡過一段時間的Flappy bird,很多玩家在短時間內達到了高分,是怎么做到的呢?除了非常厲害的玩家是真的自己手動玩的高分,其實很多高分是通過我們用強化學習的方法來訓練一個模型,讓小鳥自己學習如何不碰到障礙物一直往前飛,獲得最高分。此外,大家熟知的Alpha Go,其實也是強化學習訓練的模型,不過是深度強化學習。
 
  2013年DeepMind發表了一篇Playing Atari with Deep Reinforcement Learning 文章之后,深度強化學習便慢慢走入人們的視野。后來,在2015年,DeepMind又發表了一篇Human Level Control through Deep Reinforcement Learning,使得深度強化學習得到了廣泛的關注,當年涌現了很多學術成果。我們熟知深度強化學習應該在16~17年的時候,尤其是Alpha Go出現后,很多公司和研究人員開始大量關注深度強化學習,並嘗試將其應用在各個不同的應用場景。
 
  關於深度強化學習,我整理了一些資料,如果感興趣的可以學習一下(部分鏈接需要科學上網):
 
【論文】
 
【博客】
 
【文章】
 
【課程】
 
 
【學習網站】
 
【Github】
 
 
【會議】
 
  歡迎大家收藏和補充~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM