強化學習讀書筆記 - 01 - 強化學習的問題


強化學習讀書筆記 - 01 - 強化學習的問題

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

什么是強化學習(Reinforcement Learning)

強化學習是一種通過交互的目標導向學習方法,或者說是計算方向。
不同於監督學習和非監督學習。
監督學習是通過已標簽的數據,學習分類的邏輯。
非監督學習是通過未標簽的數據,找到其中的隱藏模式。

強化學習的特點:

  • 符合行為心理學。
  • 一種探索(exploration)和采用(exploitation)的權衡
    強化學習一面要采用(exploitation)已經發現的有效行動,
    另一方面也要探索(exploration)那些沒有被認可的行動,已找到更好的解決方案。
  • 考慮整個問題而不是子問題
  • 通用AI

強化學習的四元素

  • 政策 (policy)
    環境的感知狀態到行動的映射方式。
  • 獎賞信號 (reward signal)
    定義強化學習問題的目標。
  • 評估方法 (value function)
    一個狀態的價值就是從這個狀態開始,期望在未來獲得的獎賞。是指一種長期目標。
  • 環境模型 (optional a model of environment)
    模擬環境的行為。

強化學習的歷史

兩條主線:

  • 起源於動物學習心理學的試錯法(trial-and-error)。
  • 優化控制(optimal control) - 評估方法(value function),動態編程(dynamic programming),差分計算(temporal difference)。

參照


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM