強化學習-SARSA(lambda)路徑規划

本文轉載自查看原文 2020-08-25 07:44 505

1. 問題：612個點 [(x,y,z), 標號1，標號2]

約束：整體

水平

垂直

2. State: {w_ij}

Action: 校正點坐標

Reward: { -1 ; 1000/distance(s,a); 10}

在狀態S基於$\epsilon$貪心策略選擇動作A，

轉移到狀態S’，給予獎勵R

在下一步暫時不選擇動作A‘，而是更新價值表Q

輸入：S,A,迭代輪數T，步長$\alpha$，衰減因子$\gamma$, $\epsilon$

輸出：狀態集合和動作集合對應的價值表Q

E(s,a) = E(s,a) + 1 #當前步在(s,a), 表示離獎勵或懲罰更近，增加該步的權重

for s $\in$ S, a $\in$ A :

更新：Q(s,a) += $\alpha ( R+ \gamma Q^{\'} (s^{\'}, a^{\'}) - Q(s,a) ) E(s,a) $

E(s,a) = $\lambda \gamma$ E(s,a) #之后都不走這步

4. 優化：空間余弦：校正點與A構成的向量，與AB構成的向量的空間余弦的正負作為評判飛行器的飛行方向

轉為曲線：輸入A, P1, P2; 先求O，再求M

輸出AP1, P1M弧，MP2

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習（三）—— 時序差分法（SARSA和Q-Learning）強化學習 - Q-learning Sarsa 和 DQN 的理解強化學習 5 —— SARSA 和 Q-Learning算法代碼實現強化學習總結（3）--動態規划強化學習中的無模型基於值函數的 Q-Learning 和 Sarsa 學習強化學習（六）時序差分在線控制算法SARSA 【強化學習RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等強化學習讀書筆記 - 04 - 動態規划強化學習（8）------動態規划（通俗解釋）強化學習（三）用動態規划（DP）求解