增強學習貪心算法與Softmax算法


(一)image

這個算法是基於一個概率來對探索和利用進行折中:每次嘗試時,以image概率進行探索,即以均勻概率隨機選取一個搖臂,以image的概率進行利用,即以這個概率選擇當前平均獎賞最高的搖臂(如有多個,則隨機選取)。

 

image

image

其中:小k表示第k個搖臂。因為大K表示搖臂總數;n表示嘗試的次數,vn表示第n次嘗試的獎賞。

Qn的直觀意思為:image為前n-1次的平均獎賞。當其與n-1相乘所得是前n-1次總獎賞。再加上第n次的獎賞,處於n,則為n次的平均獎賞。

image

其中:argmax為選取最優的Q(i)。count是從0開始的,故count(k)+1的值為n,算出的Q(k)為n次的平均獎賞。

 

(二)Softmax算法

softmax算法是基於當前已知的搖臂平均獎賞來對探索和利用進行折中。若各搖臂的平均獎賞相當,則選取各搖臂的概率也相當;如果某些概率的平均獎賞明顯高於其他獎賞,則它們被選的概率也明顯高。

在貪心算法中,image的取值是由用戶選取的。softmax算法中搖臂概率的分配是基於Boltzmann分布image

<查>Boltzmann分布

image

image

從算法中並沒有看出botlzmann分布的利用?

至於兩個算法的取舍還要看實際情況。從下圖看出,softmax當溫度=0.01時,曲線與“僅利用”的曲線幾乎重合。

image


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM