LQR和iLQR、DDP

本文转载自查看原文 2020-11-11 11:19 611 open idea

LQR直接通过backward和forward 过程给出最控制率和轨迹，而iLQR初始化一条轨迹，然后用LQR动态优化这条轨迹，直到找到最优解；

LQR是在环境线性化模型、cost function二次型情况下进行的，可能不能表示真是环境的情况；

于是，近似于数值优化中的思路，iLQR是将环境一阶线性化，cost function 二阶泰勒近似，然后利用LQR求极值，在新极值的条件下，
再次将环境一阶线性化，cost function 二阶泰勒近似，求极值，指导损失函数收敛；

DDP和iLQR的不同是将环境也进行二阶泰勒近似；

存在问题：
1、二阶近似在有些点可能不准确，求得新极值点cost function值不降反增，需要使用linear search 来进行约束；
2、hessian矩阵可能不正定，需要正则化。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 iLQR算法 LQR要点 Matlab解析LQR与MPC的关系（转）PyTorch DDP模式单机多卡训练 Apollo代码学习(七)—MPC与LQR比较 Pytorch的模型加速方法：Dataparallel (DP) 和 DataparallelDistributedparallel (DDP) 一种基于LQR使输出更加稳定的算法（超级实用） [源码解析] PyTorch 分布式(17) --- 结合DDP和分布式 RPC 框架 PyTorch分布式训练详解教程 scatter, gather & isend, irecv & all_reduce & DDP 8_LQR 控制器_状态空间系统Matlab/Simulink建模分析