LQR和iLQR、DDP


LQR直接通過backward和forward 過程給出最控制率和軌跡,而iLQR初始化一條軌跡,然后用LQR動態優化這條軌跡,直到找到最優解;

LQR是在環境線性化模型、cost function二次型情況下進行的,可能不能表示真是環境的情況;

於是,近似於數值優化中的思路,iLQR是將環境一階線性化,cost function 二階泰勒近似,然后利用LQR求極值,在新極值的條件下,
再次將環境一階線性化,cost function 二階泰勒近似,求極值,指導損失函數收斂;

DDP和iLQR的不同是將環境也進行二階泰勒近似;

存在問題:
1、二階近似在有些點可能不准確,求得新極值點cost function值不降反增,需要使用linear search 來進行約束;
2、hessian矩陣可能不正定,需要正則化。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM