增強學習筆記 第二章 多臂賭博機問題


2.1 k臂賭博機問題

定義action value為期望獎勵:

通常用平均值來估算:

2.2 action value方法

貪心法是一直估算值最大的action

$\epsilon$貪心是指以$\epsilon$的概率隨機選擇一個action。對於方差較大的問題來說,選擇較大的$\epsilon$效果較好。

2.3 增量實現

2.4 非平穩問題

對非平穩問題使用一個不變的常數來迭代。

使用常數作為step-size,最終值不會收斂。收斂的條件是:

2.5 樂觀初始值

采用樂觀初始值,能鼓勵exploration,使得所有的action被使用更多次。在后期會表現更好

 

2.6 UCB 動作選擇

可以看到,時間越長,增益越少,選擇次數越少,增益越多

 2.7 梯度賭博機算法

之前都是使用action value來確定使用哪個action。現在我們繞過action value,直接定義一個偏好$H(a)$,然后通過softmax函數來確定$\pi$

 

迭代過程如下:

這個梯度算法類似於機器學習中的梯度下降。梯度下降是通過調節參數來使得loss最小,這里是通過調節h來使得$E[R_t]$最大

對比梯度下降的算法,那么更新算法就是

通過推導最后可得出上述迭代過程

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM