LQR和iLQR、DDP


LQR直接通过backward和forward 过程给出最控制率和轨迹,而iLQR初始化一条轨迹,然后用LQR动态优化这条轨迹,直到找到最优解;

LQR是在环境线性化模型、cost function二次型情况下进行的,可能不能表示真是环境的情况;

于是,近似于数值优化中的思路,iLQR是将环境一阶线性化,cost function 二阶泰勒近似,然后利用LQR求极值,在新极值的条件下,
再次将环境一阶线性化,cost function 二阶泰勒近似,求极值,指导损失函数收敛;

DDP和iLQR的不同是将环境也进行二阶泰勒近似;

存在问题:
1、二阶近似在有些点可能不准确,求得新极值点cost function值不降反增,需要使用linear search 来进行约束;
2、hessian矩阵可能不正定,需要正则化。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM