大盤點!CVPR 2020目標檢測論文精選


本文為學習筆記

參與:王博kings,Sophia

最近結束的CVPR 2020在推動物體檢測方面做出了巨大貢獻。在本文中,我們將介紹一些特別令人印象深刻的論文。

1、A Hierarchical Graph Network for 3D Object Detection on Point Clouds(用於點雲3D目標檢測的分層圖網絡)

HGNet包含三個主要組件:

  • 基於GConv的U形網絡(GU-net)
  • 提案生成者
  • 提案推理模塊(ProRe Module)-使用完全連接的圖對提案進行推理

圖片

作者提出了一種注重形狀的GConv(SA-GConv),以捕獲局部形狀特征。這是通過對相對幾何位置進行建模以描述對象形狀來完成的。

圖片

基於SA-GConv的U型網絡可捕獲多級功能。然后將它們通過投票模塊映射到相同的特征空間,並用於生成建議。下一步,基於GConv的提案推理模塊使用提案來預測邊界框。

以下是在SUN RGB-D V1數據集上獲得的一些性能結果。

圖片

2、HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection(HVNet:基於激光雷達的三維物體檢測的混合體素網絡)

在本文中,作者提出了混合體素網絡(HVNet),這是一個用於基於點雲的3D對象檢測自動駕駛的一級網絡。

圖片

本文中使用的體素特征編碼(VFE)方法包含三個步驟:

  • 體素化—將點雲分配給2D體素網格
  • 體素特征提取-計算與網格相關的逐點特征,該點特征被饋送到PointNet樣式特征編碼器
  • 投影-將逐點特征聚合到體素級特征並將其投影到其原始網格。這形成偽圖像特征圖

圖片

體素的大小在VFE方法中非常重要。較小的體素尺寸可以捕獲更精細的幾何特征。它們也更擅長對象本地化,但推理時間更長。使用較粗的體素可以獲得更快的推理速度,因為這會導致較小的特征圖。但是,它的性能較差。

作者提出了混合體素網絡(HVNet),以實現細粒度體素功能的利用。它由三個步驟組成:

  • 多尺度體素化-創建一組特征體素尺度並將它們分配給多個體素。
  • 混合體素特征提取-計算每個比例的體素相關特征,並將其輸入到關注特征編碼器(AVFE)中。每個體素比例尺上的要素都是逐點連接的。
  • 動態要素投影-通過創建一組多比例項目體素將要素投影回偽圖像。

圖片

這是在KITTI數據集上獲得的結果。

圖片

3、Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud(Point-GNN:用於點雲中3D對象檢測的圖神經網絡)

本文的作者提出了一種圖神經網絡-Point-GNN-從LiDAR點雲中檢測物體。網絡預測圖形中每個頂點所屬的對象的類別和形狀。Point-GNN具有自動回歸機制,可以一次檢測多個物體。

所提出的方法包括三個部分:

  • 圖形構建:體素降采樣點雲用於圖形構建
  • T迭代的圖神經網絡
  • 邊界框合並和評分

圖片

以下是在KITTI數據集上獲得的結果:

圖片

代碼:https://github.com/WeijingShi/Point-GNN

4、Camouflaged Object Detection

本文解決了檢測嵌入在其周圍環境中的物體的挑戰-偽裝物體檢測(COD)。作者還介紹了一個名為COD10K的新數據集。它包含10,000張圖像,覆蓋許多自然場景中的偽裝物體。它具有78個對象類別。圖像帶有類別標簽,邊界框,實例級別和消光級別的標簽注釋。

圖片

圖片

作者開發了一種稱為搜索標識網絡(SINet)的COD框架。該代碼在這里可用:

https://github.com/DengPingFan/SINet/

網絡有兩個主要模塊:

  • 搜索模塊(SM),用於搜索偽裝的物體
  • 用於檢測物體的識別模塊(IM)

圖片

以下是在各種數據集上獲得的結果:

圖片

5、Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

本文提出了一個短時目標檢測網絡,該網絡的目標是檢測不可見類別的目標,並帶有一些注釋示例。

他們的方法包括注意RPN,多重關系檢測器和對比訓練策略。該方法利用少拍支持集和查詢集之間的相似性來標識新對象,同時還減少了錯誤標識。作者還貢獻了一個新的數據集,其中包含1000個類別,這些類別的對象具有高質量的注釋。https://github.com/fanq15/Few-Shot-Object-Detection-Dataset

該網絡體系結構由一個權重共享框架組成,該框架具有多個分支-一個分支是查詢集,其余分支用於支持集。權重共享框架的查詢分支是Faster R-CNN網絡。

圖片

作者介紹了帶有多關系模塊的注意力RPN和檢測器,以在支持和查詢中的潛在框之間產生准確的解析。

圖片

以下是在ImageNet數據集上獲得的一些結果。

圖片

以下是在許多數據集上獲得的一些觀察結果。

圖片

6、D2Det: Towards High-Quality Object Detection and Instance Segmentation

本文的作者提出了D2Det,一種解決精確定位和精確分類的方法。他們引入了密集局部回歸,可以預測對象提案的多個密集框偏移。這使他們能夠實現精確的定位。

作者還介紹了區分RoI池方案,以實現准確的分類。合並方案從提案的幾個子區域進行采樣,並執行自適應加權以獲得區別特征。

該代碼位於:https://github.com/JialeCao001/D2Det

該方法基於標准的Faster R-CNN框架。在這種方法中,Faster R-CNN的傳統盒偏移回歸被提議的密集局部回歸所替代。在該方法中,通過判別式RoI池增強了分類。

圖片

在兩階段方法中,第一階段使用區域提議網絡(RPN),第二階段使用單獨的分類和回歸分支。分類分支基於判別池。局部回歸分支的目標是對象的精確定位。

圖片

以下是在MS COCO數據集上獲得的結果:

圖片
鏈接:https://heartbeat.fritz.ai/cvpr-2020-the-top-object-detection-papers-f920a6e41233

編輯:Sophia | 王博(Kings)筆記
計算機視覺聯盟 報道 | 公眾號 CVLianMeng


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM