強化學習讀書筆記 - 01 - 強化學習的問題
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
什么是強化學習(Reinforcement Learning)
強化學習是一種通過交互的目標導向學習方法,或者說是計算方向。
不同於監督學習和非監督學習。
監督學習是通過已標簽的數據,學習分類的邏輯。
非監督學習是通過未標簽的數據,找到其中的隱藏模式。
強化學習的特點:
- 符合行為心理學。
- 一種探索(exploration)和采用(exploitation)的權衡
強化學習一面要采用(exploitation)已經發現的有效行動,
另一方面也要探索(exploration)那些沒有被認可的行動,已找到更好的解決方案。 - 考慮整個問題而不是子問題
- 通用AI
強化學習的四元素
- 政策 (policy)
環境的感知狀態到行動的映射方式。 - 獎賞信號 (reward signal)
定義強化學習問題的目標。 - 評估方法 (value function)
一個狀態的價值就是從這個狀態開始,期望在未來獲得的獎賞。是指一種長期目標。 - 環境模型 (optional a model of environment)
模擬環境的行為。
強化學習的歷史
兩條主線:
- 起源於動物學習心理學的試錯法(trial-and-error)。
- 優化控制(optimal control) - 評估方法(value function),動態編程(dynamic programming),差分計算(temporal difference)。