5.optimization inside motion planning
約束問題的核心有三點:
1.目標函數的定義
2.約束。如路網約束、交規、動態約束等
3.約束問題的優化。如動態規划、二次規划等
牛頓迭代法:研究導數變化,一階導、二階導、考慮斜率變化率,然后再用binary search去逼近。
核心思想:泰勒展開
收斂次數:指數平方,二次收斂
求解全局最優解:分塊,求局部最優解,再綜合
啟發式搜索:用動態規划初步了解,計划二次規划方案
模擬退火等等。
quadratic programming
- 解決有約束條件的問題:
Lagrangian Method
KKT condition
solve nonlinear optimization problem
分兩步:
1.DP。初步進行規划
2.QP。在初步規划的基礎上找到最優解
6.understand more on the MP difficulty
約束:
1.traffic regulations \ Hard Code regulations
2.Decisions \ From hard code to DP
3.Best Trajectory \ Spline Based QP
Apollo EM Planner Framework
path speed iterative的核心:類似於貪心的算法
具體的nonlinear 決策規划問題做法:
DP path:
planning path DP
path QP
speed DP
解決逆行問題:
7.reinforcement learning and data driven approaches
rule based->optimization->data driven
Reforce learning: create mapping
不斷的實現更好的目標,最終希望通過一個mapping能夠優化處理所有的問題
imitation learning
直接的、模仿的過程,然后做出mapping
本質上可以說是一種supervised learning
- reward functional design
手動調整
- RL的步驟
通過當前的最優結果去生成一些sample。估計和optimal reward 之間的差距,然后對policy進行一些調整