清華大學李升波老師《強化學習與控制》，附課件

本文轉載自查看原文 2021-08-15 11:23 161 數據算法

《強化學習與控制》是一門由清華大學智能駕駛課題組李升波教授親自講授的強化學習課程，該課程總共包含11講，以理論基礎與算法設計融合的方式介紹了RL的框架體系，從優化角度梳理了直接法與間接法，帶模型與免模型等類別，並對典型算法原理和特性進行了分析和總結，是一門兼顧基礎入門、進階提升的強化學習課程。

一、關於課題組

智能駕駛課題組(iDLab, Intelligent Driving Lab)面向下一代機器學習和自動控制的交叉理論探索，聚焦智能網聯汽車和駕駛輔助系統的核心技術研發，進一步提升汽車的智能性、安全性和節能性。http://www.idlab-tsinghua.com/thulab/labweb/index.html

二、關於主講老師：李升波教授

李升波，清華大學長聘教授，博導，車輛學院副院長。留學於斯坦福大學，密歇根大學和加州伯克利大學。從事自動駕駛、智能汽車、強化學習、最優控制等研究。發表論文110余篇，引用>8500次，H因子45。入選IEEE高關注度及封面論文3篇，ESI高引10篇（學科前1%），學術會議最佳論文獎8次。獲中國汽車工業科技進步特等獎、國家科技進步二等獎、國家技術發明二等獎等。入選國家高層次科技創新領軍人才、交通運輸行業中青年科技創新領軍人才、中國汽車行業優秀青年科技人才獎、首屆北京市基金委傑青、清華大學教師學術新人獎等。擔任AI國際評測MLPerf自動駕駛咨詢委員會委員、IEEE智能交通系統學會的全球理事會委員、IEEE Trans on ITS副主編等。

三、關於《強化學習與控制》課程

目前，人工智能的快速崛起正重塑人類社會的各個領域，有望引導工業文明進入新一輪革命浪潮。以道路交通為例，汽車的智能化變革促使整個行業發生了翻天覆地的變化，包括駕駛輔助、自動駕駛、雲控協同等一系列新技術如雨后春筍般涌現，它們在提升地面車輛行駛性能的同時，也為解決交通事故、排放污染、城市擁堵等問題提供了一條可行的途徑。

以模仿人類大腦學習機制為原理的強化學習（RL，Reinforcement Learning）正迅速進入人們的視野，它為大規模復雜系統的學習及動態系統的高實時在線控制提供了一套極具前景的解決方案。一個引人注目的成功案例是以Alpha Go為代表的圍棋智能：它利用深度強化學習算法實現圍棋智能的自我進化，自我超越，打敗人類最好的專業棋手。盡管強化學習具有優異的潛在優勢，但是該方法的工程應用尚屬於起步階段。

《強化學習與控制》這一門課程包括11節。

第1講介紹RL概況，包括發展歷史、知名學者、典型應用以及主要挑戰等。

第2講介紹RL的基礎知識，包括定義概念、自洽條件、最優性原理問題架構等。

第3講介紹免模型學習的蒙特卡洛法，包括Monte Carlo估計，On-policy/off-policy，重要性采樣等。

第4講介紹免模型學習的時序差分法，包括它衍生的Sarsa，Q-learning，Expected Sarsa等算法。

第5講介紹帶模型學習的動態規划法，包括策略迭代、值迭代、收斂性原理等。

第6講介紹間接型RL的函數近似方法，包括常用近似函數，值函數近似，策略函數近似以及所衍生的Actor-critic架構等。

第7講介紹直接型RL的策略梯度法，包括各類Policy Gradient, 以及如何從優化的觀點看待RL等。

第8講介紹深度強化學習，即以神經網絡為載體的RL，包括深度化典型挑戰、經驗性處理技巧等。

第9講介紹帶模型的強化學習，即近似動態規划，包括離散時間系統的ADP，ADP與MPC的關聯分析等。

第10講介紹有限時域的近似動態規划，同時介紹了狀態約束的處理手段以及它與可行性之間的關系

第11講介紹RL的各類拾遺，包括POMDP、魯棒性、多智能體、元學習、逆強化學習以及訓練平台等。

---------------------------------------------------pdf合集下載地址
https://pan.baidu.com/s/1Z5pWdckre1pQYmgB5IaXHg 提取碼: ycqv或直接登錄論壇(閱讀原文)下載
http://deeprl.neurondance.com/d/287---------------------------------------------------

四、部分PPT展示