三維目標檢測論文閱讀:Deep Continuous Fusion for Multi-Sensor 3D Object Detection


題目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection

來自:Uber: Ming Liang

Note: 沒有代碼,主要看思想吧,畢竟是第一篇使用RGB feature maps 融合到BEV特征中;

從以下幾個方面開始簡述論文

  1. Open Problems

  2. Contributions

  3. Methods

  4. Experiments

  5. My Conclusion

1> Open Problems

  • 聯合多傳感器數據能獲得更好的特征表示;
  • 數據融合問題: 現有方法是將雷達特征投影到圖像特征中,當做一個深度通道來處理,這種方法的局限是需要兩步來完成;
  • 雷達獲取稀疏的特征,相機獲取稠密的特征,如何將稠密的圖像特征投影到稀疏的雷達特征圖中;

2>Contributions

  • 首個將圖像特征投影到BEV(雷達鳥瞰圖)中,構建一個基於雷達的目標檢測器;
  • 提出Continuous Fusion Layer 用於將多尺度的圖像特征融合到雷達特征中;
  • 當時具有較高的檢測精度和較高的執行效率;

3>Methods

看圖說話:

  • 簡述流程

camera圖像和雷達俯視圖分別用ResNet提取不通尺度特征的,將camera圖像提取的多尺度特征進行融合,經過本文設計的“連續融合層”以融合到BEV的不通尺度的特征中,學到的特征經個兩個固定尺度的anchor,每個尺度兩個方向(0,90°)NMS獲取最終的3D目標檢測。

  • 為什么要先融合圖像的多尺度特征再融合到不通尺度的BEV特征圖中去?

這樣做能相當於一個交叉融合,每個送往BEV特征都來自於三個不同尺度的特征,而不像是直接對應尺度融合僅僅來自於單一尺度的圖像特征圖;

  • 連續融合層

  • 深度連續卷積

連續卷積融合層相當於連續卷積,和傳統卷積的差異如下:

 

  • 訓練損失

損失包含兩個方面,分別損失和回歸損失,和2D目標檢測一樣,只是boundbox多了個目標的高度和方向,看公式吧,不在贅述;

 

4>Experiments

  • 數據集說明

  • Compare with other state-of-the-art methods

  • Ablation Study on KITTI

  • TOR4D BEV Object Detection

5>My Conclusion

  • 方法角度來看:本文是個很好的思路:通過變換LIDAR數據的不通方向上的投影,來融合多源的數據;
  • 實驗角度來看:能被檢測的目標類別還很少;TOR4D上的精讀還比較差,所以具備發揮的空間;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM