本文為學習筆記
參與:王博kings,Sophia
最近結束的CVPR 2020在推動物體檢測方面做出了巨大貢獻。在本文中,我們將介紹一些特別令人印象深刻的論文。
1、A Hierarchical Graph Network for 3D Object Detection on Point Clouds(用於點雲3D目標檢測的分層圖網絡)
HGNet包含三個主要組件:
- 基於GConv的U形網絡(GU-net)
- 提案生成者
- 提案推理模塊(ProRe Module)-使用完全連接的圖對提案進行推理
作者提出了一種注重形狀的GConv(SA-GConv),以捕獲局部形狀特征。這是通過對相對幾何位置進行建模以描述對象形狀來完成的。
基於SA-GConv的U型網絡可捕獲多級功能。然后將它們通過投票模塊映射到相同的特征空間,並用於生成建議。下一步,基於GConv的提案推理模塊使用提案來預測邊界框。
以下是在SUN RGB-D V1數據集上獲得的一些性能結果。
2、HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection(HVNet:基於激光雷達的三維物體檢測的混合體素網絡)
在本文中,作者提出了混合體素網絡(HVNet),這是一個用於基於點雲的3D對象檢測自動駕駛的一級網絡。
本文中使用的體素特征編碼(VFE)方法包含三個步驟:
- 體素化—將點雲分配給2D體素網格
- 體素特征提取-計算與網格相關的逐點特征,該點特征被饋送到PointNet樣式特征編碼器
- 投影-將逐點特征聚合到體素級特征並將其投影到其原始網格。這形成偽圖像特征圖
體素的大小在VFE方法中非常重要。較小的體素尺寸可以捕獲更精細的幾何特征。它們也更擅長對象本地化,但推理時間更長。使用較粗的體素可以獲得更快的推理速度,因為這會導致較小的特征圖。但是,它的性能較差。
作者提出了混合體素網絡(HVNet),以實現細粒度體素功能的利用。它由三個步驟組成:
- 多尺度體素化-創建一組特征體素尺度並將它們分配給多個體素。
- 混合體素特征提取-計算每個比例的體素相關特征,並將其輸入到關注特征編碼器(AVFE)中。每個體素比例尺上的要素都是逐點連接的。
- 動態要素投影-通過創建一組多比例項目體素將要素投影回偽圖像。
這是在KITTI數據集上獲得的結果。
3、Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud(Point-GNN:用於點雲中3D對象檢測的圖神經網絡)
本文的作者提出了一種圖神經網絡-Point-GNN-從LiDAR點雲中檢測物體。網絡預測圖形中每個頂點所屬的對象的類別和形狀。Point-GNN具有自動回歸機制,可以一次檢測多個物體。
所提出的方法包括三個部分:
- 圖形構建:體素降采樣點雲用於圖形構建
- T迭代的圖神經網絡
- 邊界框合並和評分
以下是在KITTI數據集上獲得的結果:
代碼:https://github.com/WeijingShi/Point-GNN
4、Camouflaged Object Detection
本文解決了檢測嵌入在其周圍環境中的物體的挑戰-偽裝物體檢測(COD)。作者還介紹了一個名為COD10K的新數據集。它包含10,000張圖像,覆蓋許多自然場景中的偽裝物體。它具有78個對象類別。圖像帶有類別標簽,邊界框,實例級別和消光級別的標簽注釋。
作者開發了一種稱為搜索標識網絡(SINet)的COD框架。該代碼在這里可用:
https://github.com/DengPingFan/SINet/
網絡有兩個主要模塊:
- 搜索模塊(SM),用於搜索偽裝的物體
- 用於檢測物體的識別模塊(IM)
以下是在各種數據集上獲得的結果:
5、Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
本文提出了一個短時目標檢測網絡,該網絡的目標是檢測不可見類別的目標,並帶有一些注釋示例。
他們的方法包括注意RPN,多重關系檢測器和對比訓練策略。該方法利用少拍支持集和查詢集之間的相似性來標識新對象,同時還減少了錯誤標識。作者還貢獻了一個新的數據集,其中包含1000個類別,這些類別的對象具有高質量的注釋。https://github.com/fanq15/Few-Shot-Object-Detection-Dataset
該網絡體系結構由一個權重共享框架組成,該框架具有多個分支-一個分支是查詢集,其余分支用於支持集。權重共享框架的查詢分支是Faster R-CNN網絡。
作者介紹了帶有多關系模塊的注意力RPN和檢測器,以在支持和查詢中的潛在框之間產生准確的解析。
以下是在ImageNet數據集上獲得的一些結果。
以下是在許多數據集上獲得的一些觀察結果。
6、D2Det: Towards High-Quality Object Detection and Instance Segmentation
本文的作者提出了D2Det,一種解決精確定位和精確分類的方法。他們引入了密集局部回歸,可以預測對象提案的多個密集框偏移。這使他們能夠實現精確的定位。
作者還介紹了區分RoI池方案,以實現准確的分類。合並方案從提案的幾個子區域進行采樣,並執行自適應加權以獲得區別特征。
該代碼位於:https://github.com/JialeCao001/D2Det
該方法基於標准的Faster R-CNN框架。在這種方法中,Faster R-CNN的傳統盒偏移回歸被提議的密集局部回歸所替代。在該方法中,通過判別式RoI池增強了分類。
在兩階段方法中,第一階段使用區域提議網絡(RPN),第二階段使用單獨的分類和回歸分支。分類分支基於判別池。局部回歸分支的目標是對象的精確定位。
以下是在MS COCO數據集上獲得的結果:
鏈接:https://heartbeat.fritz.ai/cvpr-2020-the-top-object-detection-papers-f920a6e41233
編輯:Sophia | 王博(Kings)筆記
計算機視覺聯盟 報道 | 公眾號 CVLianMeng