作者:蔣天園
來源:公眾號@3D視覺工坊
前言
今年CVPR20-paper-list前幾天已經出了,所以這里做一點大致的綜述介紹在CVPR20上在3D目標檢測的一些文章。如下圖所示,3D目標檢測按照大方向可以分為室外和室內的目標檢測,室內場景數據集一般有ScanNet等,該領域研究比較少,筆者注意到的第一篇文章是來自FAIR的voteNet,采用霍夫投票機制生成了靠近對象中心的點,利用這些點進行分組和聚合,以生成box proposals。今年在CVPR20上也至少有兩篇該文章的后續工作,分別是來自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet來自南京大學和卡迪夫大學的聯合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,該文章在vote的基礎上利用自注意力機制融合Multi-scale的特征。
此外,在室外場景的目標檢測中,可以大致按照輸入分為lidar-input,image-input和multi-sensors-fusion的研究工作。
1. CVPR20 室內目標檢測文章
ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes
文章地址:https://arxiv.org/pdf/2001.10692.pdf
類似該作者的另外一篇文章F-Pointnet,同樣通過將二維目標檢測結果融合到三維中做目標檢測任務。作者挖掘了幾何結構和語義特征兩方面的信息,並將這些信息通過相機參數和雷達幾何變換融合在三維信息中,最終實驗顯示比之前的SOTA高出5.7 map。
MLCVNet: Multi-Level Context VoteNet for 3D Object Detection
文章地址為 https://arxiv.org/pdf/2004.05679
代碼地址:https://github.com/NUAAXQ/MLCVNet
來自南京大學和卡迪夫大學的合作工作。
本文利用自注意機制和多尺度特征融合,捕獲multi-scale的上下文信息來做目標檢測。作者首先使用一個Patch-to-Patch Context (PPC)模塊來獲取點patch之間的上下文信息,然后投票選擇對應的目標質心點。隨后,一個對象到對象上下文(OOC)模塊在提議和分類階段之前被合並,以捕獲候選對象之間的上下文信息。最后,設計了一個全局場景上下文(GSC)模塊來學習全局場景上下文。作者的方法達到了目前最高的檢測性能。
Density Based Clustering for 3D Object Detection in Point Clouds
文章地址 http://openaccess.thecvf.com/content_CVPR_2020/papers/Ahmed_Density-Based_Clustering_for_3D_Object_Detection_in_Point_Clouds_CVPR_2020_paper.pdf
在這一篇文章中,作者的新模塊主要在兩個方面。第一點是一個級聯模塊化方法,將每個模塊的感受野集中在特定點上,改進特征學習。第二個模塊是使用無監督聚類的實例分割模塊。級聯模塊有序的減少進入網絡的特定點。而三個不同的模塊通過單獨訓練的基於點的網絡來完成背景前景分割、無監督聚類的實例分割和對象檢測的任務。在SUN RGB-D數據集上取得了比sota高的效果。
A Hierarchical Graph Network for 3D Object Detection on Point Clouds
文章鏈接 :http://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_A_Hierarchical_Graph_Network_for_3D_Object_Detection_on_Point_CVPR_2020_paper.pdf
作者團隊:浙江大學
本文提出了一種新的基於圖卷積(GConv)的層次圖網絡(HGNet)用於三維目標檢測,直接處理原始點雲來預測三維bbox。
HGNet能有效地捕獲點之間的關系,並利用多級語義進行目標檢測。作者提出了新的關注形狀的GConv (SA-GConv),通過建模點的相對幾何位置來描述物體的形狀,以捕獲局部形狀特征。基於SA-GConv的u形網絡捕獲多層次的特征,通過改進的投票模塊將這些特征映射到相同的特征空間中,進而生成proposals。然后,基於GConv的方案推理模塊基於全局場景語義對方案進行推理,並對Bbox進行預測。在SUN RGB-D上的平均平均精度(mAP)高於4%,在ScanNet-V2上的平均精度高於3%。
SESS: Self-Ensembling Semi-Supervised 3D Object Detection
作者團隊:新國大
文章鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhao_SESS_Self-Ensembling_Semi-Supervised_3D_Object_Detection_CVPR_2020_paper.pdf
代碼地址:https:// github.com/Na-Z/ sess
現有的基於點雲的三維物體檢測方法的性能很大程度上依賴於大規模高質量的三維標注。但是,這樣的注釋收集起來通常很繁瑣,而且成本很高。受自集成技術在半監督圖像分類任務中的成功啟發,作者提出了SESS,一個自集成的半監督三維物體檢測框架。特別的,作者設計了一個完整的擾動方案來增強網絡在未標記和新的不可見數據上的泛化性能。此外,作者提出了三種一致性損失來加強兩組預測的3D-proposals之間的一致性,以促進對象的結構和語義不變性的學習.
2. 室外自動駕駛場景3D目標檢測
2.1 LIDAR-input
PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
作者團隊:MMLAB
文章地址:https://arxiv.org/pdf/1912.13192.pdf
代碼地址:https://github.com/sshaoshuai/PCDet
本文的主體結構是voxel-based的兩階段方法,作者第一階段首先對整個場景采用voxel的方法進行特征提取,同時采取一支分支對場景采用point的FPS采樣,然后檢索得到多尺度的voxel的特征,如下的表示。這樣實際上僅僅是采用了voxel的特征,但是表示在key-point身上。第二階段則是refine階段,通過從voxeled feature中抽取到的特征表達在采樣的point上,采用這種點的多尺度特征對proposals進行精細的回歸。
Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
作者團隊:卡內基梅隆大學
文章地址 https://arxiv.org/pdf/2003.01251v1.pdf
代碼地址 https://github.com/WeijingShi/Point-GNN
這篇文章則是研究了如何采用GCN進行3D檢測任務,作者首先對場景中的點采用KNN進行建圖,然后設計了GCN網絡結構,經過多次迭代,得到了每個節點的特征,最后采用了MLP層做回歸和分類。
Structure Aware Single-stage 3D Object Detection from Point Cloud
作者團隊:港理工、達摩院
文章地址:http://www4.comp.polyu.edu.hk/~cslzhang/paper/SA-SSD.pdf
代碼地址:https://github.com/skyhehe123/SA-SSD
本文核心創新是想要將二階段方法獨有精細回歸運用在一階段的的檢測方法上,為此作者采用了SECOND作為backbone,添加了兩項附加任務,使得backbone具有structure aware的能力,定位更加准確;此外在一階段中存在預測框和cls maps之間不匹配的問題,本文也設計了一種Part-sensitive warping的策略解決這個問題。
3DSSD: Point-based 3D Single Stage Object Detector
作者團隊:港中文、港科大
文章地址:https://arxiv.org/pdf/2002.10187.pdf
代碼地址:https://github.com/tomztyang/3DSSD
本文主要從point-based的研究入手,考慮如何解決掉以前的point-based的方法的瓶頸,即時間和內存占有遠遠大於voxel-based的方法,從而作者設計了新的SA模塊和丟棄了FP模塊到達時間上可達25FPS,此外本文采用一個anchor free Head,進一步減少時間和GPU顯存,提出了3D center-ness label的表示,進一步提高的精度。
LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention
作者團隊:中科院、百度
文章地址:https://arxiv.org/pdf/2004.01389.pdf
代碼地址:https://github.com/yinjunbo/3DVID
本文提出的模型由空間特征編碼模塊和時空特征融合模塊兩部分組成。這里的空間特征編碼模塊——PMPNet(Pillar Message Passing Network)用於編碼獨立的每一幀的點雲特征,該模塊通過迭代消息傳遞,自適應地從相鄰節點處為該pillar node收集節點信息,有效地擴大了該pillar node 的感受野。時空特征融合模塊則是采用的時空注意力結合GRU的設計(AST-GRU)來整合時空信息,該模塊通過一個attentive memory gate來加強傳統的ConvGRU。其中AST-GRU模塊又包含了一個空間注意力模塊(STA)和TTA模塊(Temporal Transformer Attention ),使得AST-GRU可以注意到前景物體和配准動態物體。
What You See is What You Get: Exploiting Visibility for 3D Object Detection(oral)
文章地址:https://arxiv.org/pdf/1912.04986.pdf
本文主要上面所述的這樣一個觀察,認為free -space 和unknown的信息是可以當做信息加入到深度學習網絡中去的,因為目前的深度學習網絡在BEV條件下並無法區分unkown和free-space信息,作者據此觀察構建了visiblity map,並采用pointpillars 為baseline,采用了多種融合策略及數據增廣方式,最終實驗表面在Nuscenes上的效果提升不少。證實了這種觀察的有效性。
PointPainting: Sequential Fusion for 3D Object Detection
作者團隊:nuTonomy
文章地址 https://arxiv.org/pdf/1911.10150.pdf
本文研究了一種新的image和lidar的fusion方式,在18年SOTA的baseline上都顯示出精度的提升,同時對小物體優於大物體;本文的fusion方式是采用二維語義分割信息通過lidar信息和image信息的變換矩陣融合到點上,再采用baseline物體檢測;可以理解為對於語義分割出的物體多了一些信息作為引導,得到更好的檢測精度。
DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes
作者團隊:馬里蘭大學、谷歌
文章地址:https://arxiv.org/pdf/2004.01170
來自馬里蘭大學和谷歌的合作工作,之前的研究工作都是要么對自動駕駛場景的物體進行檢測,要么是針對室內物體的檢測任務,本文中提出的統一架構可以對室內和室外自動駕駛場景進行檢測;該方法的核心新穎之處在於其快速的一階段體系結構,該體系結構既可以檢測3D對象又可以估計其形狀。每個點都會進行一次3D Bbox估算,通過圖卷積進行聚合,然后送入網絡的一個分支,該分支預測每個檢測到的物體的形狀編碼表示。形狀信息編碼的解碼是采用3D目標檢測pipeline在綜合數據集上進行監督學習的,所以作者表示他們的模型能夠提取形狀而無需訪問目標數據集中的ground truth的形狀信息。在實驗過程中,作者提出的方法在ScanNet場景中的物體檢測方面達到了約5%的最新結果,在Waymo Open Dataset中獲得了3.4%的最高結果。
HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
作者團隊:DEEPROUTE.AI
文章地址:https://arxiv.org/pdf/2003.00186
本文作者來着DEEPROUTE.AI公司,本文主要針對的問題是voxel划分的精度和運行時間的權衡關系,作者指出如果划分的voxel單位數量過多,會得到更加豐富和原始的細節特征,但是運行時間和內存消耗都很大;但是如果划分出的體素數量過少的話,則會丟失很多細節特征。本文提出的HVNet,在point-wise level融合多尺度voxel特征,並投影到pseudo-image feature maps中來解決上訴的問題。進一步采用了注意力VFE結構來代替Voxle中的特征提取。實驗表明可以達到31HZ,其中在小物體的精度上表現亮眼。
Physically Realizable Adversarial Examples for LiDAR Object Detection
作者團隊:uber、多倫多大學和普林斯頓大學
文章鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Tu_Physically_Realizable_Adversarial_Examples_for_LiDAR_Object_Detection_CVPR_2020_paper.pdf
本文出發點是為了生成adversarial數據。現代自動駕駛系統嚴重依賴深度學習模型來處理點雲感知數據。深層模型也被證明容易受到偽造數據的干擾。盡管這給自動駕駛行業帶來了安全隱患,但在3D感知方面卻鮮有探索,因為大多數對抗性攻擊只應用於2D平面圖像。本文針對這一問題,作者提出了一種生成通用三維對抗性物體生成器來欺騙激光雷達探測器。特別地,作者演示了在任何目標車輛的頂上放置一個生成的偽物體來完全隱藏車輛,不被激光雷達探測器發現的成功率為80%。作者還進行了一個試點研究對抗性防御使用數據增強。從有限的訓練數據來看,這是向在看不見的情況下更安全的自動駕駛又邁進了一步。
PnPNet: End-to-End Perception and Prediction with Tracking in the Loop
作者團隊:uber、多倫多大學
文章鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Liang_PnPNet_End-to-End_Perception_and_Prediction_With_Tracking_in_the_Loop_CVPR_2020_paper.pdf
這一篇文章不僅僅做目標檢測,而是將自動駕駛場景中的分割和tracking任務結合。
作者考慮自動駕駛車輛在聯合感知和運動預測兩方面問題。作者提出了PnPNet,以連續的傳感器數據作為輸入,並在每個時間步長輸出目標軌跡及其未來軌跡。該系統的關鍵部分是一個新穎的跟蹤模塊,該模塊通過檢測在線生成目標軌跡,並利用軌跡水平特征進行運動預測。具體地說,通過解決數據關聯問題和軌跡估計問題,目標軌跡在每個時間步長進行更新。重要的是,整個模型是端到端可訓練的,並且受益於所有任務的聯合優化。作者在兩個大規模的驅動數據集上驗證了PnPNet,並顯示出與目前最先進的閉塞恢復和更准確的未來預測相比,PnPNet有顯著的改進。
Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Object Detection
作者團隊:復旦大學、百度和中科院
文章鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Du_Associate-3Ddet_Perceptual-to-Conceptual_Association_for_3D_Point_Cloud_Object_Detection_CVPR_2020_paper.pdf
作者針對的問題是:由於嚴重的空間遮擋和點密度隨傳感器距離的內在變化,在點雲數據中同一物體的外觀會有很大的變化。因此作者創新性地提出了一種類似domain-adaptation的方法來增強特征表示的魯棒性。作者的工作將來自真實場景的感知域的特征和從包含豐富細節信息的非遮擋點雲的增強場景中提取特征的之間架起了橋梁。相當於在模擬腦的進化。
Train in Germany, Test in The USA: Making 3D Object Detectors Generalize
作者團隊:康奈爾、scale AI、哥倫比亞大學
文章鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Train_in_Germany_Test_in_the_USA_Making_3D_Object_CVPR_2020_paper.pdf
代碼鏈接:https://github.com/cxy1997/3D_adapt_auto_driving
作者指出深度學習盡管很好,但是在對數據集方法中的特性會過度適應,而目前的數據集大都在同一個地方采集,所以在實際中可能對不同國家或者區域的路面環境並不適應。這似乎是一個非常具有挑戰性的任務,導致在精度水平急劇下降。作者提供了大量的實驗來調查,並得出了一個驚人的結論:需要克服的主要障礙是不同地理區域的汽車大小的差異。一個基於平均汽車尺寸的簡單修正,就能對適應差距進行強有力的修正。我們提出的方法是簡單的,易於融入到大多數三維目標檢測框架。它為適應不同國家的3D對象檢測提供了第一個基線,並給人們帶來了希望,即潛在的問題可能比人們希望相信的更容易解決。
MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird’s Eye View Maps
作者團隊:羅格斯大學
文章鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Wu_MotionNet_Joint_Perception_and_Motion_Prediction_for_Autonomous_Driving_Based_CVPR_2020_paper.pdf
代碼地址:https://github.com/pxiangwu/MotionNet
作者提出了一個有效的深度學習模型,稱為MotionNet,從三維點雲中聯合執行感知和運動預測。MotionNet以一系列激光雷達掃描作為輸入和輸出鳥瞰圖(BEV),它編碼每個網格單元中的目標類別和運動信息。MotionNet的主干是一種新穎的時空金字塔網絡,它分層抽取深層時空特征。為了加強預測在時空上的平滑性,MotionNet的訓練進一步正則化了新的時空一致性損失。大量的實驗表明,提出的方法總體上優於目前的狀態,包括最新的場景流和3d-object-detection-based方法。
Learning to Evaluate Perception Models Using Planner-Centric Metrics
作者團隊:英偉達、多倫多大學
這一篇文章作者的工作在於對目前的metric的方式提出一些改進。目前的衡量標准在最壞的情況下,它們會對所有不正確的檢測一視同仁,而不會對任務或場景進行條件設置;在最好的情況下,需要選擇啟發式來確保不同的錯誤以不同的方式計數。針對自動駕駛任務,作者提出了一種三維目標檢測的原則度量。該指標背后的核心思想是隔離目標檢測任務,並度量產生的檢測對下游驅動任務的影響。
2.2 單目3D目標檢測
Learning Depth-Guided Convolutions for Monocular 3D Object Detection
作者團隊:港大、北大深研院和商湯。
文章地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Ding_Learning_Depth-Guided_Convolutions_for_Monocular_3D_Object_Detection_CVPR_2020_paper.pdf
單目3D目標檢測最大的挑戰在於沒法得到精確的深度信息,傳統的二維卷積算法不適合這項任務,因為它不能捕獲局部目標及其尺度信息,而這對三維目標檢測至關重要。為了更好地表示三維結構,現有技術通常將二維圖像估計的深度圖轉換為偽激光雷達表示,然后應用現有3D點雲的物體檢測算法。因此他們的結果在很大程度上取決於估計深度圖的精度,從而導致性能不佳。在本文中,作者通過提出一種新的稱為深度引導的局部卷積網絡(LCN),更改了二維全卷積Dynamic-Depthwise-Dilated LCN ,其中的filter及其感受野可以從基於圖像的深度圖中自動學習,使不同圖像的不同像素具有不同的filter。D4LCN克服了傳統二維卷積的局限性,縮小了圖像表示與三維點雲表示的差距。D4LCN相對於最先進的KITTI的相對改進是9.1%,取得了monocular的第一名。
End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
作者團隊:康奈爾大學、俄亥俄州立大學
文章地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Qian_End-to-End_Pseudo-LiDAR_for_Image-Based_3D_Object_Detection_CVPR_2020_paper.pdf
代碼地址:https://github.com/mileyan/pseudo-LiDAR_e2e
作者設計了一個pseudo-LiDAR模塊,PL將用於3D深度估計,將2D深度圖輸出轉換為3D點雲輸入。
2.3 雙目3D目標檢測
Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation
作者團隊:浙大、商湯和南科大
文章鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Sun_Disp_R-CNN_Stereo_3D_Object_Detection_via_Shape_Prior_Guided_CVPR_2020_paper.pdf
代碼地址:https://github.com/zju3dv/disprcnn
最近很多做雙目3D目標檢測的都是通過視差估計恢復點雲,然后應用3D檢測器來解決這個問題。對整個圖像計算視差圖,這是昂貴的,並且也是沒有利用特定類別的先驗。因此作者設計了一個實例視差估計網絡(iDispNet),它僅對感興趣的物體上的像素預測視差,並事先學習一個特定類別的形狀,以便更准確地估計視差。同時針對訓練中視差標注不足的問題,提出利用統計形狀模型生成密集視差偽地真,而不需要激光雷達點雲,使系統具有更廣泛的適用性。在KITTI數據集上進行的實驗表明,即使在訓練時不能使用LiDAR的地面數據,Disp R-CNN也能取得具有競爭力的性能,在平均精度方面比以前的最先進的方法高出20%。
DSGN: Deep Stereo Geometry Network for 3D Object Detection
作者團隊:港中文、samrtMore
文章地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_DSGN_Deep_Stereo_Geometry_Network_for_3D_Object_Detection_CVPR_2020_paper.pdf
代碼地址:https://github.com/chenyilun95/DSGN
作者指出大多數最先進的3D物體探測器嚴重依賴於激光雷達傳感器,因為在基於圖像和基於激光的方法之間有很大的性能差距。作者提出DSGN,通過在differentiable-voxels表示,有效地減少了和當前lidar輸入的差距。通過這種表征,我們可以同時學習深度信息和語義信息。作者首次提供了一個簡單有效的單階段立體檢測管道,以端到端學習的方式共同估計深度和檢測三維物體。作者的方法優於以前的基於立體聲的3D檢測器(AP大約高出10個),甚至在KITTI 3D對象檢測排行榜上與幾種基於激光的方法取得了相當的性能。
總結
以上就是筆者近段時間看到的一些做3D目標檢測的文章,歡迎補充~
參考了 http://openaccess.thecvf.com/CVPR2020.py
本文僅做學術分享,如有侵權,請聯系刪文。