1 算法的優缺點

　1.1　優點

　　在DQN算法中，神經網絡輸出的是動作的q值，這對於一個agent擁有少數的離散的動作還是可以的。但是如果某個agent的動作是連續的，這無疑對DQN算法是一個巨大的挑戰，為了解決這個問題，前輩們將基於值的方法改成了基於策略的方法，即輸出動作的概率。

　1.2　缺點

　　策略梯度算法應用未來損失的return作為更新迭代的依據，即在一個回合過后，在這一回合中，若執行的某一動作的動作價值R大，則會加在下一回合選擇這一動作的概率，反之，若執行的某一動作的動作價值R小，則會在下一回合選擇這一動作的概率減小。因此，要想用return做為預測動作概率的神經網絡更新的依據，就必須先擁有一個決策鏈，才能將return計算出來，因此每一個更新是在一個回合結束后才能更新一個。更新的速率比較慢

2 算法的流程

　2.1 算法的整體邏輯

　2.2　算法的更新邏輯

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習七 - Policy Gradient Methods 強化學習原理源碼解讀001：Policy Gradient Deep Learning專欄--強化學習之從 Policy Gradient 到 A3C（3）強化學習(十三) 策略梯度(Policy Gradient) 深度學習-深度強化學習(DRL)-Policy Gradient與PPO筆記【深度強化學習】9. Policy Gradient實現中核心部分torch.distributions 強化學習讀書筆記 - 13 - 策略梯度方法(Policy Gradient Methods) 論文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》的閱讀——強化學習中的策略梯度算法基本形式與部分證明強化學習的算法分類強化學習 IMPALA算法

強化學習算法Policy Gradient

1 算法的優缺點

1.1 優點

1.2 缺點

2 算法的流程

2.1 算法的整體邏輯

2.2 算法的更新邏輯

免責聲明！

　1.1　優點

　1.2　缺點

　2.1 算法的整體邏輯

　2.2　算法的更新邏輯