強化學習算法Policy Gradient


1 算法的優缺點

 1.1 優點

  在DQN算法中,神經網絡輸出的是動作的q值,這對於一個agent擁有少數的離散的動作還是可以的。但是如果某個agent的動作是連續的,這無疑對DQN算法是一個巨大的挑戰,為了解決這個問題,前輩們將基於值的方法改成了基於策略的方法,即輸出動作的概率。

 1.2 缺點

  策略梯度算法應用未來損失的return作為更新迭代的依據,即在一個回合過后,在這一回合中,若執行的某一動作的動作價值R大,則會加在下一回合選擇這一動作的概率,反之,若執行的某一動作的動作價值R小,則會在下一回合選擇這一動作的概率減小。因此,要想用return做為預測動作概率的神經網絡更新的依據,就必須先擁有一個決策鏈,才能將return計算出來,因此每一個更新是在一個回合結束后才能更新一個。更新的速率比較慢

2 算法的流程

 2.1 算法的整體邏輯

  2.2 算法的更新邏輯

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM