增強學習筆記第二章多臂賭博機問題

本文轉載自查看原文 2017-10-03 12:56 1922

2.1 k臂賭博機問題

定義action value為期望獎勵：

通常用平均值來估算：

2.2 action value方法

貪心法是一直估算值最大的action

$\epsilon$貪心是指以$\epsilon$的概率隨機選擇一個action。對於方差較大的問題來說，選擇較大的$\epsilon$效果較好。

2.3 增量實現

2.4 非平穩問題

對非平穩問題使用一個不變的常數來迭代。

使用常數作為step-size，最終值不會收斂。收斂的條件是：

2.5 樂觀初始值

采用樂觀初始值，能鼓勵exploration，使得所有的action被使用更多次。在后期會表現更好

2.6 UCB 動作選擇

可以看到，時間越長，增益越少，選擇次數越少，增益越多

2.7 梯度賭博機算法

之前都是使用action value來確定使用哪個action。現在我們繞過action value，直接定義一個偏好$H(a)$，然后通過softmax函數來確定$\pi$

迭代過程如下：

這個梯度算法類似於機器學習中的梯度下降。梯度下降是通過調節參數來使得loss最小，這里是通過調節h來使得$E[R_t]$最大

對比梯度下降的算法，那么更新算法就是

而

通過推導最后可得出上述迭代過程

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【強化學習】多臂賭博機問題(MAB)的UCB算法介紹增強學習————K-搖臂賭博機第二章--網絡與圖(復雜網絡學習筆記) 線性代數學習筆記——第二章(上） Python編程從入門到實踐：學習筆記1（第二章） Django2實戰示例第二章增強博客功能《淺談Cache Memory》學習-第二章【開發者指南】第二章：Cocos2d-x中的基礎概念——學習筆記 ArcGIS API for JavaScript 4.2學習筆記[3] 官方第二章Mapping and Views概覽與解釋【神經網絡和深度學習】筆記 - 第二章反向傳播算法