viewing frustum: 稱視景體、視錐,是三維世界中在屏幕上可見的區域,即虛擬攝像機的視野。

Author
一作: Charles R. Qi 四作: Hao Su
又是他倆,PontNet, PointNet++ CVPR2017, NIPS2017,又來個CVPR2018, 人生贏家啊
Abstract
解決3D object detection問題,使用RGB-D data(使用depth sensore),不同於之間的2D RGB-D圖像和3D voxels, 他們經常模糊3D pattern以及3D data的不變性,本文直接作用在RGB-D scan生成的原始點雲上
雖然之前PointNet能在小scale point clouds中分割得很好,但是一個主要問題是如何在大規模場景中有效地檢測物體 detect objects。
利用降維技術和成熟的2D object detectors, 本文提出Frustum PointNet framework解決了以上的問題。
本框架超過SOTA,並且high efficiency.(runing at 5 fps) 【RGB-D & detection】
這篇論文雖然起名時RGB-D data,但是實際使用的還是點雲數據
Introduction
3D sensors已經廣泛部署於手機和無人機上,所以現在有越來越多的3D data, 本文學習一個更重要的3D perception tasks--3D object detection
之前的工作大多是把3D數據轉換成2D數據(投影)或者體素數據來處理的,但是這樣就去失去3D數本質的一些特征以及不變性
主挑戰:
how to efficiently propose possible locations of 3D objects in a 3D space.
3D search的計算復雜度特別高,會隨着分辨率增高計算復雜度增高,對於一些大場景或者實時的應用(自動駕駛)不是很實際
本文利用成熟的2D檢測技術,通過降維方式
之前的工作都是將RGB-D數據作為2D map用CNN處理,本文更加3D利用depth map映射到point cloud從而直接處理point cloud
首先會對3D數據進行變換到一個規范框架,通過alignment,就可以不用考慮一些姿態的變化
在KITTI 3D object detection中超過了SOTA, 而且high efficiency
通過不同描述RGB-D data的方式來進行3D detection
- Front view image based methods: 用2D RGB圖像
- Bird's eye view based methods:
-
bird's-eye view is an elevated view of an object from above, with a perspective as though the observer were a bird, often used in the making of blueprints, floor plans, and maps
- 3D based methods: point clouds, 3D voxel, mesh
RGB-D data The depth data, obtained from LiDAR or indoor depth sensors, is represented as a point cloud in RGB camera coordinates.
3D Detection with Frustum PointNets
模型主要分為3部分:
- frustum proposao
- 3D instance segmentation
- 3D amodal bounding box estimation

對於實時3D sensor采集的3D數據還是比2D數據的分辨率要低很多,所以用2D圖片和2D目標檢測的方法來提proposal(同時進行分類)效果很好

This normalization helps improve the rotation-invariance of the algorithm.

