LQR直接通過backward和forward 過程給出最控制率和軌跡,而iLQR初始化一條軌跡,然后用LQR動態優化這條軌跡,直到找到最優解;
LQR是在環境線性化模型、cost function二次型情況下進行的,可能不能表示真是環境的情況;
於是,近似於數值優化中的思路,iLQR是將環境一階線性化,cost function 二階泰勒近似,然后利用LQR求極值,在新極值的條件下,
再次將環境一階線性化,cost function 二階泰勒近似,求極值,指導損失函數收斂;
DDP和iLQR的不同是將環境也進行二階泰勒近似;
存在問題:
1、二階近似在有些點可能不准確,求得新極值點cost function值不降反增,需要使用linear search 來進行約束;
2、hessian矩陣可能不正定,需要正則化。