CVPR2020論文解讀：3D Object Detection三維目標檢測

本文轉載自查看原文 2020-03-20 18:00 2648

CVPR2020論文解讀：3D Object Detection三維目標檢測

PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Detection

論文鏈接：https://arxiv.org/pdf/1912.13192.pdf

本文在LITTI數據集3D Object Detection三維目標檢測性能排名第一。

摘要

提出了一種新的高性能的三維目標檢測框架：點體素RCNN（PV-RCNN），用於從點雲中精確檢測三維目標。該方法將三維體素卷積神經網絡（CNN）和基於點網的集合抽象技術有機地結合起來，以學習更具鑒別能力的點雲特征。它利用了3D體素CNN的高效學習和高質量建議以及基於點網絡的靈活接收功能。具體地說，該框架通過一個新的體素集抽象模塊將具有3D體素CNN的3D場景總結成一個小的關鍵點集，以節省后續計算，並對具有代表性的場景特征進行編碼。考慮到體素CNN生成的高質量3D提議，RoI網格池被提議通過具有多個接收域的keypoint集抽象從關鍵點到RoI網格點抽象提議特定特征。與傳統的池化操作相比，RoI網格特征點編碼更豐富的上下文信息，以准確估計對象的密度和位置。在KITTI數據集和Waymo開放數據集上進行的大量實驗表明，我們提出的PV-RCNN僅使用點雲就可以在顯著的邊緣上超越最新的3D檢測方法。

PV-RCNN

本文將Grid-based（稱為Voxel-based）的方法和Point-based的方法優缺點結合了起來。本文首先說明了Grid-based和Point-based的方法的優缺點：

基於網格Grid-based的三維目標檢測方法。

為了解決點雲的不規則數據格式問題，現有的研究大多將點雲投影到規則網格上，由二維或三維CNN處理。先鋒工作MV3D[1]將點雲投影到2D鳥瞰網格，並放置許多預先確定的3D錨來生成3D邊界框，以下工作[11、17、16]開發了更好的多傳感器融合策略，而[36、35、12]提出了更有效的鳥瞰表示框架。其他一些工作[27，41]將點雲划分為3D體素，由3D-CNN處理，並且引入3D稀疏卷積[5]以有效地處理3D體素。[30，42]使用多個檢測頭，而[26]探索對象部件位置以提高性能。這些基於網格的方法通常對於精確的3D方案生成是有效的，但是接受域受到2D/3D卷積的核大小的限制。

基於點Point-based的三維目標檢測方法。FPointNet[22]首先提出應用PointNet[23，24]從基於2D圖像邊界框的裁剪點雲進行3D檢測。PointRCNN[25]直接從整個點雲生成3D建議，而不是僅使用點雲進行3D檢測的2D圖像，下面的工作STD[37]提出了稀疏到密集的策略，以更好地解決建議問題。[21]提出了hough投票策略以更好地進行對象特征分組。這些基於點的方法主要基於點網系列，尤其是集合抽象操作[24]，它為點雲特征學習提供了靈活的接受域。

基於網格Grid-based的方法計算效率更高，但不可避免的信息損失降低了細粒度定位精度，而基於點Grid-based的方法具有較高的計算成本，但是可以容易地通過點集抽象實現更大的接收域。

網絡的結構圖如下：

RPN

Backbone: 3D Sparse Convolution

由於是backbone，其實也比較通用。為什么要用3D Sparse Convolution呢？因為它的高效率和精確性。

Classification & Regression Head

將3D的feature map轉為俯視圖，高度變為通道，然后使用每個cell每個類別設置兩個anchor，角度分別為0和90度。

實驗表明使用這種backbone和anchor的設置方式，Recall高：“As shown in Table 4, the adopted 3D voxel CNN backbone with anchor-based scheme achieves higher recall perfor- mance than the PointNet-based approaches [25, 37]”

但這里有個問題是anchor的角度是0或者90度，那-90度是怎么處理的？這相當於是怎么處理相反方向的車？車輛朝向的這個量這個在Proposal生成的過程中是否考慮？如果考慮，則怎么回歸相反方向的車，這種anchor設置看起來不合理；如果不考慮，那么在通過Proposal生成6x6x6的grids的時候的順序怎么確定，難道就一直不考慮？這個得通過具體Loss或者代碼中看了。相當於在圖像處理中，網絡要學會對左右翻轉的魯邦性。

Voxel Set Abastraction Module（VSA）

Discussion

有了Proposal，就要提取Proposal中的feature，形成一個固定大小的feature map了，本文將Proposal分成了6x6x6的柵格。那么如何計算6x6x6的每個cell的feature呢？

然后作者提出了對目前方法不足的地方的討論：
(i) 這些特征體通常具有較低的空間分辨率，因為它們被下采樣多達8倍，這妨礙了對象在輸入場景中的精確定位。

（ii）即使可以上采樣以獲得更大空間尺寸的特征體積/地圖，它們通常仍然非常稀疏。

也就是說使用差值的方法，類似於圖像中的目標檢測那樣的RoI Align的方法不太好。

作者就提出了一種思路，使用PointNet++中的SA層，對每個cell，使用SA層，綜合這個cell一定范圍內的BackBone輸出的feature map中的feature。但作者提出，這種方法，計算量太高。
使用集合抽象操作來合並場景特征體素的一個簡單解決方案是將場景中的多尺度特征體直接聚合到RoI網格中。然而，這種直觀的策略占用了大量內存，在實際應用中效率很低。例如，來自KITTI數據集的一個公共場景可能會在4×下采樣的特征體積中產生18000個體素。如果對每個場景和每個 box標有3×3×3格。即使經過距離閾值處理，2700×18000對距離和特征集合也無法有效計算。
為了解決這個問題，作者提出了VSA Module，來減少要聚集的feature的總數量，也就是上例子中的18000。

VSA Module

VSA Module在示例圖中已經畫的非常形象了。過程如下：（公式1,2,3）
1）在原始點鍾用Furthest Point Sampling選n個點
2）在每一層中的feature map中，使用SA Module綜合每個點一定鄰域內的feature
3）然后把所有feature concat起來
Extended VSA Module還多兩種feature：

· 在Backbone輸出的feature map轉到的BEV圖中，用2D bilinear interpolation計算的feature

· 使用原始點雲通過SA Module計算的feature

PKW Module（Predicted Keypoint Weighting）

問題是n個點中，有些點事前景點，比較重要，有些點是背景點，不重要。這就要區分一下，通過這n個點的feature，可以計算n個weight，weight由真實的mask做監督

訓練，然后用這weight乘以點的feature，得到每個點的最終的feature。（公式5）這個過程被稱為PKW module。

上述過程是使用n個點來表示整個場景，文章中叫做voxel-to-keypoint scene encoding，n個點叫做key-points

到此，我們有了Proposal和n個點的坐標和對應的feature。

RCNN

有了Proposal，就可以生成6x6x6個cell，對於每個cell的中心點，可以在之前得到的n個點中選取那些在其鄰域的點，然后使用SA Module綜合特征，得到cell的特征。（公式6,7）

得到了Proposal的固定大小的特征，就可以做confidence prediction和box refinement了。這里要注意的是confidence prediction的真實值是由IOU給出的。

Experiments

在KITTI上和Waymo Open Dataset上效果都很好。

Ablation Studies：

· 驗證了voxel-to-keypoint scene encoding的有效性，與RPN和朴素的想法做了對比。

· 驗證了different features for VSA module。

· 驗證了PKW module的有效性。

· 驗證了RoI-grid pooling module比RoI-aware pooling module（PointRCNN中的方法）的有效性。

思考

提出了一種基於點雲的精確三維目標檢測的新方法，即PV-RCNN框架。通過新的體素集抽象層將多尺度三維體素CNN特征和基於點網PointNet-based的特征融合到一個小的關鍵點集上，這些關鍵點的識別特征被聚合到具有多個接受域的RoI網格點上，以獲取更豐富的上下文信息，用於細粒度的提案。在KITTI數據集和Waymo開放數據集上的實驗結果表明，本文提出的體素到關鍵點場景編碼和關鍵點到網格特征提取策略與以前的最新方法相比，顯著提高了三維目標檢測性能。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 CVPR2020論文解讀：三維語義分割3D Semantic Segmentation 三維目標檢測論文閱讀：Deep Continuous Fusion for Multi-Sensor 3D Object Detection CVPR2020：三維實例分割與目標檢測 CVPR2020論文介紹： 3D 目標檢測高效算法 CVPR2020 論文解讀：少點目標檢測 3D目標檢測（CVPR2020：Lidar）匯總|3D目標檢測文章(CVPR2020) 【三維目標檢測】VoteNet：Deep Hough Voting for 3D Object Detection in Point Clouds CVPR2020|3D-VID:基於LiDar Video信息的3D目標檢測框架 CVPR2020：利用圖像投票增強點雲中的三維目標檢測（ImVoteNet）