增量式強化學習


線性逼近:

相比較於非線性逼近,線性逼近的好處是只有一個最優值,因此可以收斂到全局最優。其中為狀態s處的特征函數,或者稱為基函數。

常用的基函數的類型為:

增量式方法參數更新過程隨機性比較大,盡管計算簡單,但樣本數據的利用效率並不高。而批的方法,盡管計算復雜,但計算效率高。

 

批處理方法:

 

 

深度強化學習:

Q-learning方法是異策略時序差分方法。其偽代碼為:

 

離策略:是指行動策略(產生數據的策略)和要評估的策略不是一個策略。在圖Q-learning 偽代碼中,行動策略(產生數據的策略)是第5行的\varepsilon -greedy策略,而要評估和改進的策略是第6行的貪婪策略(每個狀態取值函數最大的那個動作)。

所謂時間差分方法,是指利用時間差分目標來更新當前行為值函數。在圖1.1 Q-learning偽代碼中,時間差分目標為

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM