1. 問題:612個點 [(x,y,z), 標號1,標號2]
約束:整體
水平
垂直
2. State: {w_ij}
Action: 校正點坐標
Reward: { -1 ; 1000/distance(s,a); 10}
3.
在狀態S基於$\epsilon$貪心策略選擇動作A,
轉移到狀態S’,給予獎勵R
在下一步暫時不選擇動作A‘,而是更新價值表Q
輸入:S,A,迭代輪數T,步長$\alpha$,衰減因子$\gamma$, $\epsilon$
輸出:狀態集合和動作集合對應的價值表Q
E(s,a) = E(s,a) + 1 #當前步在(s,a), 表示離獎勵或懲罰更近,增加該步的權重
for s $\in$ S, a $\in$ A :
更新:Q(s,a) += $\alpha ( R+ \gamma Q^{\'} (s^{\'}, a^{\'}) - Q(s,a) ) E(s,a) $
E(s,a) = $\lambda \gamma$ E(s,a) #之后都不走這步
4. 優化:空間余弦:校正點與A構成的向量,與AB構成的向量的空間余弦的正負作為評判飛行器的飛行方向
轉為曲線:輸入A, P1, P2; 先求O,再求M
輸出AP1, P1M弧,MP2