2.1 k臂賭博機問題
定義action value為期望獎勵:
通常用平均值來估算:
2.2 action value方法
貪心法是一直估算值最大的action
$\epsilon$貪心是指以$\epsilon$的概率隨機選擇一個action。對於方差較大的問題來說,選擇較大的$\epsilon$效果較好。
2.3 增量實現
2.4 非平穩問題
對非平穩問題使用一個不變的常數來迭代。
使用常數作為step-size,最終值不會收斂。收斂的條件是:
2.5 樂觀初始值
采用樂觀初始值,能鼓勵exploration,使得所有的action被使用更多次。在后期會表現更好
2.6 UCB 動作選擇
可以看到,時間越長,增益越少,選擇次數越少,增益越多
2.7 梯度賭博機算法
之前都是使用action value來確定使用哪個action。現在我們繞過action value,直接定義一個偏好$H(a)$,然后通過softmax函數來確定$\pi$
迭代過程如下:
這個梯度算法類似於機器學習中的梯度下降。梯度下降是通過調節參數來使得loss最小,這里是通過調節h來使得$E[R_t]$最大
對比梯度下降的算法,那么更新算法就是
而
通過推導最后可得出上述迭代過程