1 算法的優缺點
1.1 優點
在DQN算法中,神經網絡輸出的是動作的q值,這對於一個agent擁有少數的離散的動作還是可以的。但是如果某個agent的動作是連續的,這無疑對DQN算法是一個巨大的挑戰,為了解決這個問題,前輩們將基於值的方法改成了基於策略的方法,即輸出動作的概率。
1.2 缺點
策略梯度算法應用未來損失的return作為更新迭代的依據,即在一個回合過后,在這一回合中,若執行的某一動作的動作價值R大,則會加在下一回合選擇這一動作的概率,反之,若執行的某一動作的動作價值R小,則會在下一回合選擇這一動作的概率減小。因此,要想用return做為預測動作概率的神經網絡更新的依據,就必須先擁有一個決策鏈,才能將return計算出來,因此每一個更新是在一個回合結束后才能更新一個。更新的速率比較慢
2 算法的流程
2.1 算法的整體邏輯
2.2 算法的更新邏輯