【CVPR2018】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

本文轉載自查看原文 2020-01-26 11:41 713 論文閱讀

又一篇3D點雲detection的頂會。這篇文章是two stage的方法，非end-to-end。文章的前提是利用faster rcnn得到2D圖像的image crop；然后才是本文介紹的PointFusion，即將image crop和對應的3D點雲數據作為輸入，得到3D box。可以說這篇文章實際2D檢測基礎上做3D檢測。

整個模型如圖：

輸入：2D 圖像塊（fatser RCNN檢測結果）；對應的3D點雲
模型：
- 特征提取：
  - 2D圖像用預訓練的ResNet50提取2048d的特征
  - 用多個PointNet網絡（去除BN層）提取1024d的全局特征（$1024\times1$）和每個點的64d特征（$64\times n$）
- 特征融合
  - Global Fusion (baseline model)初始版本
    - 將2D的2048d全局特征和3D的1024d全局特征concatenate到一起得到3072d的特征（$3072\times1$）
    - 3072d經過一個MLP
    - 輸出：3D box 8個角點的x,y,z坐標($1\times8\times3$)
  - Dense Fusion (final model)最終版本
    - 每個點的64d特征+2048d2維特征+1024d三維全局特征concatenate到一起，得到$n\times2126$維特征。
    - 經過MLP之后，兩個branch：
      - 輸出$n\times2$，即每個點做2分類，判斷該點是否在target bounding box中
      - 輸出$n\times8\times3$，即每個點分別在x,y,z方向輸出偏置(offset)，即該點在三個坐標方向上離8個角點的距離。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [AI] 論文筆記 - CVPR2018 Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation 【CVPR 2019】論文閱讀：3D human pose estimation in video with temporal convolutions and semi-supervised training CVPR2017_PointNet_ Deep Learning on Point Sets for 3D Classification and Segmentation CVPR2018_Frustum PointNets for 3D Object Detection from RGB-D Data 論文閱讀筆記四十八：Bounding Box Regression with Uncertainty for Accurate Object Detection(CVPR2019) XiangBai——【CVPR2018】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation [AI] 論文筆記 - CVPR2018: Generative Image Inpainting with Contextual Attention bounding box的簡單理解 CVPR2018_RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised Viewpoints CLOCs：3D目標檢測多模態融合之Late-Fusion