幾句話總結一個算法之Policy Gradients


 

  • 強化學習與監督學習的區別在於,監督學習的每條樣本都有一個獨立的label,而強化學習的獎勵(label)是有延后性,往往需要等這個回合結束才知道輸贏

  • Policy Gradients(PG)計算某個狀態下所有策略的分布概率,類似於經典分類問題給每個類別預測一個概率,好的PG應該給優良的策略分配較高的概率
  • PG基於以下假定:

    • 如果只在游戲終結時才有獎勵和懲罰,該回合贏了,這個回合的所有樣本都是有""偏正的",反之則該回合所有樣本都是“偏負的”

    • 距離贏的那刻越近,貢獻越大,越遠貢獻越小,一般采取指數衰減

    • 如果在游戲每個時刻都有獎勵,那么當前行動貢獻就是后面每個時刻獎勵的衰減累計之和
  • 貢獻大小則體現在對模型參數的調整步長上,具體操作有兩種,一種是直接在每個樣本的loss上乘以貢獻大小,第二是先記下每個樣本對模型參數的梯度,再依次乘以貢獻大小來調整,兩種方法殊途同歸

  • PG是按照概率分布來隨機選擇動作的,其中已經包含了探索部分


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM