-
-
PG基於以下假定:
-
如果只在游戲終結時才有獎勵和懲罰,該回合贏了,這個回合的所有樣本都是有""偏正的",反之則該回合所有樣本都是“偏負的”
-
距離贏的那刻越近,貢獻越大,越遠貢獻越小,一般采取指數衰減
- 如果在游戲每個時刻都有獎勵,那么當前行動貢獻就是后面每個時刻獎勵的衰減累計之和
-
-
貢獻大小則體現在對模型參數的調整步長上,具體操作有兩種,一種是直接在每個樣本的loss上乘以貢獻大小,第二是先記下每個樣本對模型參數的梯度,再依次乘以貢獻大小來調整,兩種方法殊途同歸
-
PG是按照概率分布來隨機選擇動作的,其中已經包含了探索部分