Motionnet: joint Perception and Motion prediction for autonomous Driving based on Bird's Eye View Maps


1.摘要

Motionnet 以Lidar 點雲序列作為輸入,輸出鳥瞰圖,鳥瞰圖包含目標的類別以及運動信息。Motionnet的主干網絡為時空金字塔網絡。用時空一致性損失來正則化確保時空預測的平滑性。開源地址https://github.com/pxiangwu/MotionNet

2.引言.環境狀態估計包含兩部分:1.感知-從背景中感知前景目標;2.預測-預測目標的未來軌跡·[5][22],基於相機的2D目標檢測[20,27,41,63]. 基於點雲的3D目標檢測[19,46,64]. 基於融合的目標檢測[6,23,24]。檢測到的bounding box送入到目標跟蹤器。一些方法帶有軌跡的bounding box.[4,31,59].這種狀態估計策略在真實的開放場景中容易失敗。

用Occupancy grid map (OGM) 來表示3D環境信息,OGM 均勻的將3D點雲離散成2D grid cells, OGM能夠用來指定可行駛區域,不過缺點是,在連續時刻很難保證一致性,而且OGM 並沒有提供目標的類別信息。為了處理這個問題,用BEV map表示環境信息,與OGM類似,BEV map擴充OGM 提供了3層信息,占用,運動和類別信息。這樣就能決定可行駛區域,描述每個目標的運動行為。貢獻點有1.提出一種基於鳥瞰圖聯合感知和運動預測的網絡模型motionNet,bounding box free;2.提出一種時空金字塔網絡;3.時空一致性約束損失來約束網絡的訓練.

 

3.方法

pipeline包含3部分。1.將原始的3D點雲表示乘BEV 圖 2.backbone為spatio-temporal pyramid network; 3.head for分類和運動預測

3.1 自我運動補償

網絡的輸入是3D點雲序列,單幀點雲有各自的坐標系統,需要將過去幀合成到當前幀,用當前的坐標系統表示所有的點雲坐標。

3.2 基於鳥瞰圖的表示

與2D圖像不同的是,3D點雲是稀疏不規則分散的,並不能用標准的卷積進行處理,為了處理這個問題,將其轉換為鳥瞰圖。首先將其量化為規則的體素,簡單的使用2元狀態作為體素的表示,指明該體素是否包含一個以上的點雲,然后將3D體素晶格表示成2D偽圖像,將高度維度作為圖像通道,這樣就能用2D 卷積。

3.3 時空金字塔網絡

3.4 輸出Heads

STPN 后有3個head:1. cell-classification head, output is H × W × C, where C is the number of cell categories,; 2.motion-prediction head;, output shape is N × H × W × 2, N 為未來幀數目 3. state-estimation head( static or moving),  output is H × W.

 

3.5 損失函數

分類和狀態估計用交叉熵損失,運動預測估計使用l1損失

3.5.1 

Spatial consistency loss(for the cells belonging to the same rigid object, their predicted motionsshould be very close without much divergence

Foreground temporal consistency loss(assume that there will be no sharp change of motions between two consecutive frames

Background temporal consistency loss

 

total loss

 

4.實驗


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM