【CVPR2018】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation


又一篇3D點雲detection的頂會。這篇文章是two stage的方法,非end-to-end。文章的前提是利用faster rcnn得到2D圖像的image crop;然后才是本文介紹的PointFusion,即將image crop和對應的3D點雲數據作為輸入,得到3D box。可以說這篇文章實際2D檢測基礎上做3D檢測。

 

整個模型如圖:

 

 

  • 輸入:2D 圖像塊(fatser RCNN檢測結果);對應的3D點雲
  • 模型:
    • 特征提取:
      • 2D圖像用預訓練的ResNet50提取2048d的特征
      • 用多個PointNet網絡(去除BN層)提取1024d的全局特征($1024\times1$)和每個點的64d特征($64\times n$)
    • 特征融合
      • Global Fusion (baseline model)初始版本
        • 將2D的2048d全局特征和3D的1024d全局特征concatenate到一起得到3072d的特征($3072\times1$)
        • 3072d經過一個MLP
        • 輸出:3D box 8個角點的x,y,z坐標($1\times8\times3$)
      • Dense Fusion (final model)最終版本
        • 每個點的64d特征+2048d2維特征+1024d三維全局特征concatenate到一起,得到$n\times2126$維特征。
        • 經過MLP之后,兩個branch:
          • 輸出$n\times2$,即每個點做2分類,判斷該點是否在target bounding box中
          • 輸出$n\times8\times3$,即每個點分別在x,y,z方向輸出偏置(offset),即該點在三個坐標方向上離8個角點的距離

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM