這個算法是基於一個概率來對探索和利用進行折中:每次嘗試時,以概率進行探索,即以均勻概率隨機選取一個搖臂,以
的概率進行利用,即以這個概率選擇當前平均獎賞最高的搖臂(如有多個,則隨機選取)。
其中:小k表示第k個搖臂。因為大K表示搖臂總數;n表示嘗試的次數,vn表示第n次嘗試的獎賞。
Qn的直觀意思為:為前n-1次的平均獎賞。當其與n-1相乘所得是前n-1次總獎賞。再加上第n次的獎賞,處於n,則為n次的平均獎賞。
其中:argmax為選取最優的Q(i)。count是從0開始的,故count(k)+1的值為n,算出的Q(k)為n次的平均獎賞。
(二)Softmax算法
softmax算法是基於當前已知的搖臂平均獎賞來對探索和利用進行折中。若各搖臂的平均獎賞相當,則選取各搖臂的概率也相當;如果某些概率的平均獎賞明顯高於其他獎賞,則它們被選的概率也明顯高。
在貪心算法中,的取值是由用戶選取的。softmax算法中搖臂概率的分配是基於Boltzmann分布
。
<查>Boltzmann分布
從算法中並沒有看出botlzmann分布的利用?
至於兩個算法的取舍還要看實際情況。從下圖看出,softmax當溫度=0.01時,曲線與“僅利用”的曲線幾乎重合。