增强学习笔记第二章多臂赌博机问题

本文转载自查看原文 2017-10-03 12:56 1922

2.1 k臂赌博机问题

定义action value为期望奖励：

通常用平均值来估算：

2.2 action value方法

贪心法是一直估算值最大的action

$\epsilon$贪心是指以$\epsilon$的概率随机选择一个action。对于方差较大的问题来说，选择较大的$\epsilon$效果较好。

2.3 增量实现

2.4 非平稳问题

对非平稳问题使用一个不变的常数来迭代。

使用常数作为step-size，最终值不会收敛。收敛的条件是：

2.5 乐观初始值

采用乐观初始值，能鼓励exploration，使得所有的action被使用更多次。在后期会表现更好

2.6 UCB 动作选择

可以看到，时间越长，增益越少，选择次数越少，增益越多

2.7 梯度赌博机算法

之前都是使用action value来确定使用哪个action。现在我们绕过action value，直接定义一个偏好$H(a)$，然后通过softmax函数来确定$\pi$

迭代过程如下：

这个梯度算法类似于机器学习中的梯度下降。梯度下降是通过调节参数来使得loss最小，这里是通过调节h来使得$E[R_t]$最大

对比梯度下降的算法，那么更新算法就是

而

通过推导最后可得出上述迭代过程

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 【强化学习】多臂赌博机问题(MAB)的UCB算法介绍增强学习————K-摇臂赌博机第二章--网络与图(复杂网络学习笔记) 线性代数学习笔记——第二章(上） Python编程从入门到实践：学习笔记1（第二章） Django2实战示例第二章增强博客功能《浅谈Cache Memory》学习-第二章【开发者指南】第二章：Cocos2d-x中的基础概念——学习笔记 ArcGIS API for JavaScript 4.2学习笔记[3] 官方第二章Mapping and Views概览与解释【神经网络和深度学习】笔记 - 第二章反向传播算法