目標檢測近5年發展歷程概述,從R-CNN到RFBNet(2013--2018)(轉)
【時間】2018.09.24
【題目】目標檢測近5年發展歷程概述,從R-CNN到RFBNet(2013--2018)
目錄
3.3 檢測提議 (detection proposal)方法
概述
今天,看到了《Deep Learning for Generic Object Detection: A Survey》這一篇論文, 對用於一般目標檢測的深度學習技術進行了全面系統的總結。本文是對論文的相關內容的梗概,希望以此作為自己在目標識別方面的學習歷程和方向的指引。本文主要作為各種相關知識的索引,如若想要了解相關細節,請閱讀原文,或者通過此索引獲得關鍵詞,再進行相關內容的搜索。
論文鏈接:https://arxiv.org/abs/1809.02165
此外,來自首爾國立大學的 Lee hoseong 在近期開源了「deep learning object detection」GitHub 項目,正是參考該論文開發的。項目鏈接是: https://github.com/hoya012/deep_learning_object_detection#2014
一、目標檢測相關背景
1.1 目標檢測的類別
一般目標檢測(即一般目標類別檢測)也被稱為目標類別檢測 [240] 或目標分類檢測,其定義如下。給定一張圖像,確定其中是否存在多個預定義類別的任何目標實例;如果存在,就返回每個實例的空間位置和覆蓋范圍。
圖3、與通用目標檢測相關的識別問題(A)圖像級對象分類,(B)包圍框級通用對象檢測,(C)像素級語義分割,(D)實例級語義分割。
1 .2 目標檢測遇到的主要難題
圖5。同一類圖像的外觀隨成像條件的變化而變化(a-g)。一個對象類(H)的含義有一個驚人的變化。相反,(I)中的四幅圖像看起來非常相似,但實際上是來自四種不同的對象類別。來自ImageNet[179]和Coco女士[129]的圖像。
1.3 過去二十年的進展
圖2、目標檢測和識別的里程碑,包括特征表示 [37, 42, 79, 109, 114, 139, 140, 166, 191, 194, 200, 213, 215]、檢測框架 [56, 65, 183, 209, 213] 和數據集 [53, 129, 179]。在 2012 年之前,主導方法都還是人工設計的特征。我們看到,隨着 Krizhevsky et al. [109] 為圖像分類開發出了 DCNN,2012 年迎來了轉折。這里列出的大多數方法都得到了大量引用並至少贏得了一個 ICCV 或 CVPR 的主要獎項。詳見 2.3 節。
二、 框架
2.1框架發展歷程
在這一節,我們會回顧一般目標檢測領域在深度學習進入這一領域后出現的里程碑檢測框架,如圖 6 所示, 詳細情況總結在表 10 中(請看原論文最后一頁)。整體而言,這些檢測器可以分為兩大主要類別:
1. 兩級式檢測框架,包含一個用於區域提議的預處理步驟,使得整體流程是兩級式的。
2. 單級式檢測框架,即無區域提議的框架,這是一種單獨提出的方法,不會將檢測提議分開,使得整個流程是單級式的。
圖 6:一般目標檢測的里程碑,基於第一個 arXiv 版本的時間點
2.2一些里程碑式的框架
圖 7:里程碑檢測框架 RCNN [65, 67] 的細節圖示
圖 8:用於一般目標檢測的領先框架的高層面示意圖。表 10 總結了這些方法的特性。
三、基礎性子問題
3.1 基於 DCNN 的目標表示
作為任何測器的主要組件之一,優良的特征表示在目標檢測中至關重要。
表 2:常用於一般目標檢測的 DCNN 架構。對於 #Paras 和 #Layers 的統計數據,我們沒有考慮最后的 FC 預測層。「Test Error」一列給出了在 ImageNet1000 上的 Top 5 分類測試誤差。解釋:OverFeat(准確的模型)、DenseNet201(Growth Rate 32, DenseNet-BC)以及 ResNeXt50(32*4d)。
表 3:在改進用於一般目標檢測的 DCNN 特征表示中的表征方法的特性總結。詳細討論參見 4.1.2 節。縮寫:Selective Search(SS)、EdgeBoxes(EB)、InceptionResNet(IRN)。mAP@IoU=0.5 時,在 VOC07、VOC12 和 COCO 上報告的檢測結果;另一列在 COCO 上的結果是在一個新指標 mAP@IoU=[0.5 : 0.05 : 0.95] 上報告的,這是在從 0.5 到 0.95(寫成 [0.5:0.95])的不同 IoU 閾值上平均求取 mAP。訓練數據:07 表示 VOC2007 trainval,12 表示 VOC2012 trainval,07+12 表示 VOC07 和 VOC12 trainval 的並集,07++12 表示 VOC07 trainval、VOC07 test 和 VOC12 trainval 的並集,07++12+CO 表示 VOC07 trainval、VOC07 test、VOC12 trainval 和 COCO trainval 的並集。COCO 檢測結果是在 COCO2015 Test-Dev 上報告的,只有 MPN [233] 除外,其結果基於 COCO2015 Test-Standard。
3.2 形境建模
在物理世界中,視覺目標通常會出現在特定的環境中,並且通常與其它相關目標共同存在,而且有強大的心理學證據 [13, 9] 表明形境在人類目標識別中發揮着關鍵性的作用。形境大致可分為這三大類 [13, 59]:
1. 形義形境:目標出現在某些場景而非其它場景中的可能性;
2. 空間形境:在場景中目標與其它物體存在某些位置關系而非其它位置關系的可能性;
3. 尺寸形境:在場景中目標相對其它物體所存在的尺寸限制。
表 4:使用了形境信息的檢測器匯總,類似表 3
圖 13:能探索局部周圍形境特征的代表性方法:MRCNN [62]、GBDNet [235, 236]、ACCNN [123] 和 CoupleNet [251],參見表 4
3.3 檢測提議 (detection proposal)方法
檢測提議(detection proposal)通常被用作一個預處理步驟,以通過限制需要檢測器評估的區域的數量來降低計算的復雜性。一個優良的檢測提議應當具備以下特點:
1. 高召回率,只使用少量提議就可以實現;
2. 提議盡可能准確地匹配目標;
3. 高效率。
表 5:使用 DCNN 的目標提議方法匯總。藍色數字表示目標提議的數量。除非另有說明,在 COCO 上的檢測結果都使用了 mAP@IoU[0.5, 0.95]。
圖 14:[175] 中提出的區域提議網絡(RPN)圖示
3.4 訓練策略和處理類別不平衡問題
四、數據集和表現評估
4.1用於目標識別的常用數據庫
表 7:用於目標識別的常用數據庫
圖15、常用數據庫的一些例子
4.2常用指標匯總
表 9:用於評估目標檢測器的常用指標匯總
五、總結
一般目標檢測是計算機視覺領域內一個重要且有挑戰性的問題,並且已經得到了相當大的關注。盡管過去幾年取得了巨大的成功(比如檢測准確度從 ILSVRC2013 的 23% 顯著提升至了 ILSVRC2017 的 73%),但當前最佳方法的表現與人類水平仍有巨大差距,尤其是在開放世界學習任務上。還有很多研究工作有待完成,我們可以看到研究者的關注重點主要集中在以下八個領域:
1. 開放世界學習( Open World Learning)
2. 更好更高效的檢測框架(Better and More Efficient Detection Frameworks)
3. 緊湊高效的深度 CNN 特征(CompactandEfficientDeepCNNFeatures)
4. 穩健的目標表征(RobustObjectRepresentations)
5. 形境推理( Context Reasoning)
6. 目標實例分割( Object Instance Segmentation)
7. 弱監督或無監督學習() Weakly Supervised or Unsupervised Learning)
8. 三維目標檢測(3D Object Detection)