LQR和iLQR、DDP

本文轉載自查看原文 2020-11-11 11:19 611 open idea

LQR直接通過backward和forward 過程給出最控制率和軌跡，而iLQR初始化一條軌跡，然后用LQR動態優化這條軌跡，直到找到最優解；

LQR是在環境線性化模型、cost function二次型情況下進行的，可能不能表示真是環境的情況；

於是，近似於數值優化中的思路，iLQR是將環境一階線性化，cost function 二階泰勒近似，然后利用LQR求極值，在新極值的條件下，
再次將環境一階線性化，cost function 二階泰勒近似，求極值，指導損失函數收斂；

DDP和iLQR的不同是將環境也進行二階泰勒近似；

存在問題：
1、二階近似在有些點可能不准確，求得新極值點cost function值不降反增，需要使用linear search 來進行約束；
2、hessian矩陣可能不正定，需要正則化。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 iLQR算法 LQR要點 Matlab解析LQR與MPC的關系（轉）PyTorch DDP模式單機多卡訓練 Apollo代碼學習(七)—MPC與LQR比較 Pytorch的模型加速方法：Dataparallel (DP) 和 DataparallelDistributedparallel (DDP) 一種基於LQR使輸出更加穩定的算法（超級實用） [源碼解析] PyTorch 分布式(17) --- 結合DDP和分布式 RPC 框架 PyTorch分布式訓練詳解教程 scatter, gather & isend, irecv & all_reduce & DDP 8_LQR 控制器_狀態空間系統Matlab/Simulink建模分析