增强学习笔记 第二章 多臂赌博机问题


2.1 k臂赌博机问题

定义action value为期望奖励:

通常用平均值来估算:

2.2 action value方法

贪心法是一直估算值最大的action

$\epsilon$贪心是指以$\epsilon$的概率随机选择一个action。对于方差较大的问题来说,选择较大的$\epsilon$效果较好。

2.3 增量实现

2.4 非平稳问题

对非平稳问题使用一个不变的常数来迭代。

使用常数作为step-size,最终值不会收敛。收敛的条件是:

2.5 乐观初始值

采用乐观初始值,能鼓励exploration,使得所有的action被使用更多次。在后期会表现更好

 

2.6 UCB 动作选择

可以看到,时间越长,增益越少,选择次数越少,增益越多

 2.7 梯度赌博机算法

之前都是使用action value来确定使用哪个action。现在我们绕过action value,直接定义一个偏好$H(a)$,然后通过softmax函数来确定$\pi$

 

迭代过程如下:

这个梯度算法类似于机器学习中的梯度下降。梯度下降是通过调节参数来使得loss最小,这里是通过调节h来使得$E[R_t]$最大

对比梯度下降的算法,那么更新算法就是

通过推导最后可得出上述迭代过程

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM