這篇文獻的主要結構如下:
第1節,簡單介紹目標檢測的發展及兩類目標檢測算法。
第 2 節中討論了骨干網絡,目標檢測器需要強大的骨干網絡來提取豐富的特征。眾所周知,特定領域圖像檢測器的典型管道是任務的基礎和里程碑。
在第 3 節中,本文闡述了之前提出的最具代表性和開創性的基於深度學習的目標檢測方法 比如說R-cnn,fastR-CNN,YOLO等。
第 4 節描述了常用數據集和指標。
第 5 節系統地解釋了一般對象檢測方法的分析。
第 6 節詳細介紹了對象檢測的五個典型領域和幾個流行的分支。
第 7 節發展趨勢總結 。
摘要
目標檢測是計算機視覺中最重要和最具挑戰性的分支之一,在人們的生活中得到了廣泛的應用,如監控安防、自動駕駛等,其目的是定位某一類語義對象的實例。隨着用於檢測任務的深度學習網絡的快速發展,物體檢測器的性能得到了極大的提高。
為了全面深入地了解目標檢測領域的主要發展現狀,在本次調查中,我們首先分析了現有典型檢測模型的方法,並描述了基准數據集。之后,我們以系統的方式全面概述了各種物體檢測方法,涵蓋了一級和二級檢測器。此外,我們列出了傳統和新的應用3程序。還分析了對象檢測的一些代表性分支。最后,我們討論了利用這些對象檢測方法來構建有效且高效系統的架構,並指出一組發展趨勢以更好地遵循最先進的算法和進一步的研究。
1,簡介
近幾年來,由於其廣泛的應用和最近的技術突破,物體檢測越來越受到關注。這項任務正在學術界和工業界的應用中進行廣泛研究,例如監控安全、自動駕駛、交通監控、無人機場景分析和機器人視覺。
在導致物體檢測技術快速發展的眾多因素中,顯着的貢獻應該歸功於深度卷積神經網絡和 GPU 計算能力的發展。在目前,深度學習模型已被廣泛應用於整個計算機視覺領域,包括通用目標檢測和特定領域目標檢測。
大多數最先進的目標檢測器利用深度學習網絡作為其骨干和檢測網絡,分別從輸入圖像(或視頻)、分類和定位中提取特征。對象檢測是一種與計算機視覺和圖像處理相關的計算機技術,它處理檢測數字圖像和視頻中某一類(如人類、建築物或汽車)語義對象的實例。對象檢測的深入研究領域包括多類別檢測、邊緣檢測、顯着對象檢測、姿勢檢測、場景文本檢測、人臉檢測、和行人檢測等作為場景的重要組成部分。
此外,許多基准在對象中發揮了重要作用迄今為止的檢測領域,例如 Caltech[1]、KITTI[2]、ImageNet[3]、PASCAL VOC[4]、MS COCO [5] 和 Open Images V5[6]。在 ECCV VisDrone 2018 大賽中,主辦方發布了一個新的基於無人機平台的數據集 [7],這個數據集包含一個大型圖片和視頻的數量。
圖a,目標檢測主要任務(圖源網絡,侵刪,非原文圖)
-
兩類物體檢測器
目前特定領域圖像對象檢測器通常可以分為兩類,一類是兩階段檢測器,最具代表性的是 Faster R-CNN [8];另一種是一級檢測器,如YOLO [9]、SSD [10]。
兩級檢測器具有較高的定位和物體識別精度,一級檢測器具有較高的推理速度。兩階段檢測器的兩個階段可以通過 RoI(Region of Interest)池化層來划分。例如,在 Faster R-CNN 中,第一階段稱為 RPN,一個區域提議網絡,提議候選對象邊界框;第二階段,通過 RoIPool(RoI Pooling)操作從每個候選框提取特征,用於以下分類和邊界框回歸任務 [11]。圖 1 (a) 顯示了兩級檢測器的基本架構。
此外,一級檢測器直接從輸入圖像中提出預測框而無需區域提議步驟,因此它們具有時間效率並可用於實時設備。圖 1 (b) 展示了一級檢測器的基本架構。
圖 1. (a) 展示了兩階段檢測器的基本架構,它由區域提議網絡組成,將區域提議輸入分類器和回歸器。(b) 顯示了一級檢測器的基本架構,它直接從輸入圖像預測邊界框。黃色立方體是骨干網絡中具有相同分辨率的一系列卷積層(稱為塊),由於一個塊后的下采樣操作,后面的立方體的尺寸逐漸變小。厚藍色立方體是一系列包含一個或多個卷積層的卷積層。扁平的藍色立方體展示了 RoI 池化層,它為相同大小的對象生成特征圖。
-
貢獻
本綜述側重於描述和分析基於深度學習的目標檢測任務。由於計算機視覺研究的快速發展,現有的調查總是涵蓋一系列一般物體檢測領域,但不包含最先進的方法,這些方法提供了一些新的解決方案和這些任務的新方向。
1)本文列出了最近提出的非常新穎的解決方案,不介紹基礎知識,以便讀者可以更輕松地看到該領域的前沿。 (2) 此外,與以往的物體檢測調查不同,本文系統、全面地回顧了基於深度學習的物體檢測方法,最重要的是最新的檢測解決方案和一系列重要的研究趨勢。(3)本綜述的特點是多方面的深入分析和討論,據我們所知,其中很多是該領域的第一次。
圖b 目標檢測算法發展流程(圖源網絡,侵刪,非原文圖)
2.骨干網絡
骨干網絡是目標檢測任務的基本特征提取器,目標檢測的主要任務是將圖像作為輸入並輸出相應輸入圖像的特征圖。大多數用於檢測的主干網絡是用於分類任務的網絡,這些任務連接最后的全連接層。例如,林等人[15] 添加或減少圖層或用特殊設計的圖層替換一些圖層。為了更好地滿足特定要求,一些工作 [9] [16] 利用新設計的主干進行特征提取。
對於精度與效率的不同要求,人們可以選擇更深且連接密集的主干網絡,如 ResNet [11]、ResNeXt [17]、AmoebaNet [18] 或輕量級主干網絡,如 MobileNet [19]、ShuffleNet [20]、SqueezeNet [21]、Xception [22]、MobileNetV2 [23]。
當應用於移動設備時,輕量級骨干網可以滿足要求。王等人 [24] 通過將 PeleeNet 與 SSD [10] 相結合並優化架構以提高處理速度,提出了一種新穎的實時對象檢測系統。為了滿足高精度和更准確的應用需求,需要復雜的主干網絡。另一方面,像視頻或網絡攝像頭這樣的實時獲取不僅需要高處理速度,還需要高准確度 [9],這需要精心設計的主干網以適應檢測架構並在速度和准確度之間進行權衡。
圖c 目標檢測算法骨干網絡(圖源網絡,侵刪,非原文圖)
為了探索更具競爭力的檢測精度,采用更深且連接密集的主干來代替較淺且連接稀疏的對應物。He 等人[11] 利用 ResNet [25] 而不是 VGG [26] 來捕獲在 Faster R-CNN [8] 中采用的豐富特征,由於其高容量,可以進一步提高精度。
新的高性能分類網絡可以提高精度並降低目標檢測任務的復雜性。這是進一步提高網絡性能的有效方法,因為骨干網絡充當特征提取器。眾所周知,特征的好壞決定了網絡性能的上限,因此是需要進一步探索的重要步驟。更多細節請參考[27]。