標簽【策略梯度】

Policy Gradient Methods 之前學過的強化學習幾乎都是所謂的‘行動－價值’方法，也就是說這些方法先是學習每個行動在特定狀態下的價值，之后在每個狀態，根據當每個動作的估計價值進行選 ...