标签【策略梯度】

强化学习（九）：策略梯度

Policy Gradient Methods 之前学过的强化学习几乎都是所谓的‘行动－价值’方法，也就是说这些方法先是学习每个行动在特定状态下的价值，之后在每个状态，根据当每个动作的估计价值进行选 ...