強化學習讀書筆記 - 14 - 心理學

學習筆記：
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

參照

停在這里了

從這一章開始叫做Looking Deeper。
講的有心理學(Psychology)，神經科學(Neuroscience) 和強化學習的聯系，
還有強化學習的應用和案例(Applications and case studies)和前沿(Frontiers)。

基本上需要大量的翻譯。這不是我的特長。
所以我的筆記先停在這里了。

心理學(Psychology)

術語

reinforcement
在心理學中，指動物接收到一個刺激（或者經歷一個刺激的消失），行為和另一個刺激（或者反應）的關聯模式得到了（強度或者頻率上的）加強。
reinforcer - 強化刺激
reward - 獎賞
讓動物認知好行為的事物或者事件。
penalty - 懲罰
讓動物認知壞行為的事物或者事件。
reinforcement signal - 加強信號
加強信號的一個例子：TD error。
action
control
在強化學習中，控制是指本體影響它的環境，帶來期望的狀態或者事件。
stimulus-response learning - 刺激-反應學習
prediction algorithm
control algorithm
Policy improvement algorithms
unconditioned responses
unconditioned stimulus
conditioned responses
conditioned stimulus
classical conditioning - 條件反射

算法列表

2
A simple bandit algorithm
4
Iterative policy evaluation
Policy iteration (using iterative policy evaluation)
Value iteration
5
First-visit MC policy evaluation (returns V v)
Monte Carlo ES (Exploring Starts)
On-policy rst-visit MC control (for "-soft policies)
Incremental o-policy every-visit MC policy evaluation
O-policy every-visit MC control (returns )
6
Tabular TD(0) for estimating v
Sarsa: An on-policy TD control algorithm
Q-learning: An o-policy TD control algorithm
Double Q-learning
7
n-step TD for estimating V v
n-step Sarsa for estimating Q q, or Q q for a given
O-policy n-step Sarsa for estimating Q q, or Q q for a given
n-step Tree Backup for estimating Q q, or Q q for a given
O-policy n-step Q() for estimating Q q, or Q q for a given
8
Random-sample one-step tabular Q-planning
Tabular Dyna-Q
Prioritized sweeping for a deterministic environment
9
Gradient Monte Carlo Algorithm for Approximating ^v v
Semi-gradient TD(0) for estimating ^v v
n-step semi-gradient TD for estimating ^v v
LSTD for estimating ^v v (O(n2) version)
10
Episodic Semi-gradient Sarsa for Control
Episodic semi-gradient n-step Sarsa for estimating ^q q, or ^q q
Dierential Semi-gradient Sarsa for Control
Dierential semi-gradient n-step Sarsa for estimating ^q q, or ^q q
12
Semi-gradient TD() for estimating ^v v
True Online TD() for estimating > v
13
REINFORCE, A Monte-Carlo Policy-Gradient Method (episodic)
REINFORCE with Baseline (episodic)
One-step Actor-Critic (episodic)
Actor-Critic with Eligibility Traces (episodic)
Actor-Critic with Eligibility Traces (continuing)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 什么？強化學習竟然來源於心理學？《普通心理學》讀書筆記讀書筆記——《設計心理學3：情感設計》讓設計充滿情感《改變你一生的108個心理學法則》讀書筆記強化學習讀書筆記 - 01 - 強化學習的問題強化學習讀書筆記 - 06~07 - 時序差分學習(Temporal-Difference Learning) 強化學習讀書筆記 - 10 - on-policy控制的近似方法【學習心理學】《延遲滿足效應（糖果效應）》《心理評估與診斷》讀書筆記【性格心理學】為什么我對自己缺乏信心？