強化學習-SARSA(lambda)路徑規划


1. 問題:612個點 [(x,y,z), 標號1,標號2]

    約束:整體

              水平

              垂直

2. State: {w_ij}

    Action: 校正點坐標

    Reward: { -1 ; 1000/distance(s,a); 10}

3. 

   在狀態S基於$\epsilon$貪心策略選擇動作A,

   轉移到狀態S’,給予獎勵R

   在下一步暫時不選擇動作A‘,而是更新價值表Q

   輸入:S,A,迭代輪數T,步長$\alpha$,衰減因子$\gamma$, $\epsilon$

   輸出:狀態集合和動作集合對應的價值表Q

   E(s,a) = E(s,a) + 1  #當前步在(s,a), 表示離獎勵或懲罰更近,增加該步的權重

  for s $\in$ S, a $\in$ A :

   更新:Q(s,a) += $\alpha ( R+ \gamma Q^{\'} (s^{\'}, a^{\'}) - Q(s,a) ) E(s,a) $

              E(s,a) = $\lambda \gamma$ E(s,a) #之后都不走這步

4. 優化:空間余弦:校正點與A構成的向量,與AB構成的向量的空間余弦的正負作為評判飛行器的飛行方向

    轉為曲線:輸入A, P1, P2; 先求O,再求M

                      輸出AP1, P1M弧,MP2


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM