第五章 百度Apollo規划技術介紹(3)


5.optimization inside motion planning

約束問題的核心有三點:
1.目標函數的定義
2.約束。如路網約束、交規、動態約束等
3.約束問題的優化。如動態規划、二次規划等

牛頓迭代法:研究導數變化,一階導、二階導、考慮斜率變化率,然后再用binary search去逼近。
核心思想:泰勒展開
收斂次數:指數平方,二次收斂

求解全局最優解:分塊,求局部最優解,再綜合
啟發式搜索:用動態規划初步了解,計划二次規划方案
模擬退火等等。

quadratic programming

  • 解決有約束條件的問題:

Lagrangian Method

KKT condition

solve nonlinear optimization problem

分兩步:
1.DP。初步進行規划
2.QP。在初步規划的基礎上找到最優解

6.understand more on the MP difficulty

約束:

1.traffic regulations \ Hard Code regulations
2.Decisions \ From hard code to DP
3.Best Trajectory \ Spline Based QP

Apollo EM Planner Framework

path speed iterative的核心:類似於貪心的算法

具體的nonlinear 決策規划問題做法:

DP path:

planning path DP

path QP

speed DP

解決逆行問題:

7.reinforcement learning and data driven approaches

rule based->optimization->data driven
Reforce learning: create mapping
不斷的實現更好的目標,最終希望通過一個mapping能夠優化處理所有的問題

imitation learning

直接的、模仿的過程,然后做出mapping
本質上可以說是一種supervised learning

  • reward functional design

手動調整

  • RL的步驟
    通過當前的最優結果去生成一些sample。估計和optimal reward 之間的差距,然后對policy進行一些調整


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM