線性逼近:
相比較於非線性逼近,線性逼近的好處是只有一個最優值,因此可以收斂到全局最優。其中
為狀態s處的特征函數,或者稱為基函數。
常用的基函數的類型為:
增量式方法參數更新過程隨機性比較大,盡管計算簡單,但樣本數據的利用效率並不高。而批的方法,盡管計算復雜,但計算效率高。
批處理方法:
深度強化學習:
離策略:是指行動策略(產生數據的策略)和要評估的策略不是一個策略。在圖Q-learning 偽代碼中,行動策略(產生數據的策略)是第5行的\varepsilon -greedy策略,而要評估和改進的策略是第6行的貪婪策略(每個狀態取值函數最大的那個動作)。
所謂時間差分方法,是指利用時間差分目標來更新當前行為值函數。在圖1.1 Q-learning偽代碼中,時間差分目標為
。
