增強學習貪心算法與Softmax算法

本文轉載自查看原文 2016-05-31 09:12 3366 機器學習/ 強化學習/ 增強學習

（一）

這個算法是基於一個概率來對探索和利用進行折中：每次嘗試時，以概率進行探索，即以均勻概率隨機選取一個搖臂，以的概率進行利用，即以這個概率選擇當前平均獎賞最高的搖臂（如有多個，則隨機選取）。

其中：小k表示第k個搖臂。因為大K表示搖臂總數；n表示嘗試的次數，vn表示第n次嘗試的獎賞。

Qn的直觀意思為：為前n-1次的平均獎賞。當其與n-1相乘所得是前n-1次總獎賞。再加上第n次的獎賞，處於n，則為n次的平均獎賞。

其中：argmax為選取最優的Q(i)。count是從0開始的，故count(k)+1的值為n，算出的Q(k)為n次的平均獎賞。

（二）Softmax算法

softmax算法是基於當前已知的搖臂平均獎賞來對探索和利用進行折中。若各搖臂的平均獎賞相當，則選取各搖臂的概率也相當；如果某些概率的平均獎賞明顯高於其他獎賞，則它們被選的概率也明顯高。

在貪心算法中，的取值是由用戶選取的。softmax算法中搖臂概率的分配是基於Boltzmann分布。

<查>Boltzmann分布

從算法中並沒有看出botlzmann分布的利用？

至於兩個算法的取舍還要看實際情況。從下圖看出，softmax當溫度=0.01時，曲線與“僅利用”的曲線幾乎重合。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Leetcode之貪心算法貪心算法貪心算法思想貪心算法那些經典算法：貪心算法常用算法之貪心算法貪心算法和回溯算法【貪心-01】貪心算法原理介紹貪心算法——分糖果貪心算法題目匯總