What makes for effective detection proposals? 論文解析


1 介紹(INTRODUCTION)

本文主要對最近的 proposal 檢測方法做一個總結和評價。主要是下面這些方法。 
這里寫圖片描述

2 Detection Proposal 方法(DETECTION PROPOSAL METHODS)

作者將 Detection Proposal 分為兩類,grouping method (將圖片分為碎片,最后聚合)和 window scoring method (對分成的大量窗口打分)。

2.1 分組 proposal 方法(Grouping proposal methods)

Grouping proposal methods嘗試產生對應於目標的多個區域(可能重疊)。根據它們產生 proposal 的方式可以划分為三類:superpixels (SP),graph cut (GC) 和 edge contours (EC)。

• SelectiveSearch (SP) [15], [29]:通過貪婪地合並超像素來產生 proposals。這個方法沒有學習的參數,合並超像素的特征和相似函數是手動設定的。它被 R-CNN 和 Fast R-CNN detectors [8], [16] 等最新的目標檢測方法選用。

• RandomizedPrim’s (SP) [26]:使用類似與SelectiveSearch 的特征,但是使用了一個隨機的超像素合並過程來學習所有的可能(probabilities)。此外,速度有了極大地提升。

• Rantalankila (SP) [27]:使用類似與SelectiveSearch 的策略,但使用了不同的特征。在后續階段,產生的區域用作求解圖切割的種子點(seeds )(類似於CPMC)。

• Chang (SP) [38]:結合 saliency 和 Objectness 在一個圖模型中來合並超像素實現前景/背景(figure/background)分割。

• CPMC (GC) [13],[19]:避免初始的分割,使用幾個不同的種子點(seeds )和位元(unaries )對像素直接進行圖切割。生成的區域使用一個大的特征池來排序。

• Endres (GC) [14], [21]:從遮擋的邊界建立一個分層(hierarchical )的分割,並且使用不同的種子點和參數來切割圖產生區域。產生的 使用大量的線索和鼓勵多樣性的角度排序。

• Rigor (GC) [28]:是 CPMC 的一個改進,使用多個圖切割和快速的邊緣檢測子來加快計算速度。

• Geodesic (EC) [22]:首先使用 [36] 對圖片過分割。分類器用來為一個測地距離變換標定種子點。每個距離轉換的水平集(Level sets)定義了(figure/ground)的分割。

• MCG (EC) [23]:基於 [36], 提出一個快速的用於計算多尺度(multi-scale)層次分割進程。使用邊緣強度來合並區域,生成的目標假設(object hypotheses )使用類似於尺度,位置,形狀和邊緣強度的線索來排序。

2.2 窗口評分的 proposal 方法(Window scoring proposal methods)

Window scoring proposal methods 通過對每個候選的窗口根據它們包含目標的概率來打分來產生 proposals 。與 grouping approaches 比,這些方法值返回邊界框(bounding boxes),因此速度更快。但是,除非它們的窗口采樣密度很高,否則這些方法位置精度很低。

• Objectness [12], [24]:最為最早和最廣泛的一種 proposal 方法。它通過選擇一副圖片中的顯著性位置作為 proposal,接着通過顏色,邊緣,位置,尺寸,和 superpixel straddling 等多個線索對這些 proposal 打分。

• Rahtu [25]:以 一個包含采樣區域(單個,兩個和三個超像素)和 多個隨機采樣的框的大的 proposal 池作為開始。采用類似於 Objectness 的打分策略,但是有些提高 ([40]添加了額外的 low-level features 和 強調了恰當調優的非最大抑制(properly tuned nonmaximum suppression)的重要性)。

• Bing† [18]:通過邊緣訓練一個簡單的線性分類器,並且以一個滑動窗口的方式運行。使用充足的近似,獲得一個非常快的類未知的檢測子 (CUP中每幀 1ms)。CrackingBing [41]表明一個有很小影響和類似性能的分類器可以通過不用查看圖片的方式來獲得 (分類性能不是來自於學習而是幾何學)。

• EdgeBoxes† EC [20] :基於目標邊界估計(通過 structured decision forests [36], [42]獲得)形成一個粗糙的滑動窗口模式作為開始,使用一個后續的 refinement 步驟來提高位置精度。不學習參數。作者提出通過調節滑動窗口模式的密度和和非最大抑制的閾值來調優方法用於不同的重疊閾值。

• Feng [43] :通過搜索顯著性圖片內容來找到 proposal ,提出了一種新的顯著性度量,包括一個潛在的目標能被圖片的剩余部分組成。它采用滑動窗口模式,並通過顯著性線索對每個位置打分。

• Zhang [44] :提出在簡單的梯度特征上訓練一個級聯的排序 SVMs。第一階段對不同的尺度和長寬比(aspect ratio)訓練不同的分類器;第二階段對所有獲得的proposals 排序。所有的 SVMs 使用結構性的輸出,對含有更多目標重疊的窗口打分更高。因為級聯在同樣的類別上訓練和測試,因此不太清楚它的泛化能力。

• RandomizedSeeds [45] :使用多個隨機的 SEED 超像素映射圖 對每個候選窗口打分。打分策略類似於 Objectness 的 superpixel straddling (沒有額外添加的信息)。作者展示使用多個超像素映射(superpixel maps )可以明顯地提高召回率。

2.3 其他 proposal 方法(Alternative proposal methods)

• ShapeSharing [47] :是一個無參的數據驅動的方法,通過匹配邊轉換目標形狀從范例(exemplars)到測試圖片。生成的區域使用圖切割合並和提純。

• Multibox [9], [48] :訓練一個神經網絡來直接回歸一定數量的 proposals (不需要在圖片上滑動網絡)。每個 proposals 都有它自己的位置誤差 。該方法在 ImageNet 表現出最好的結果。

2.4 Proposals VS 級聯(Proposals versus cascades)

Proposals:使用圖像特征產生候選窗口; 
級聯(cascades):使用一個快速但是不太精確的分類器拋棄大量不太好的 proposals 。 
兩者之間的主要差異是級聯(cascades)要求在訓練過程中一般化對象類別。 
proposal 一般化對象類別的原因:1)一個主要的假設是對於足夠大量的類別訓練一個分類器對於一般化未知的類別是充足的(訓練貓和狗后,可以一般化到其他動物)。2)分類器的判別能力經常是受限的,因此阻止分類器過擬合和學習所有目標共享的屬性。

2.5 控制proposals的數量(Controlling the number of proposals)

Ranging from just a few ( ∼ 102) to a large number ( ∼ 105)

3 Proposals 可重復性(PROPOSAL REPEATABILITY)

在檢測 proposals(detection proposals)而不是所有滑動窗口上訓練一個檢測器修改了所有正負窗口的外觀分布(appearance distribution)。本部分我們主要分析負窗口的分布( the distribution of negative windows):如果 proposal 不能一致地對包含部分或不含目標的相似圖片產生窗口,分類器就不能對測試集中的負窗口進行評分(if the proposal method does not consistently propose windows on similar image content without objects or with partial objectsthe classifier may have difficulty generating scores on negative windows on the test set)。一個極端的例子是訓練數據集中只包含目標,而測試集中包含目標和負窗口,這樣訓練獲得的分類器將不能區分目標和背景,因此在測試階段會對負窗口給出無用的評分。因此,我們希望 proposals在背景上的一致性的外觀分布 
與檢測器相關。 
我們將 proposals 的這種對類似圖片內容標定的屬性為 proposals 方法的 repeatability 。直觀上來說,proposals 應該對包含相同內容的有輕微差別的圖片 repeatable 。

3.1 可重復性評估協議(Evaluation protocol for repeatability)

For matching we use the intersection over union (IoU) criterion。 
Given the matching, we plot the recall for every IoU threshold and define the repeatability to be the area under this “recall versus IoU threshold” curve between IoU 0 and 1

3.2 可重復性實驗和結果(Repeatability experiments and results)

這里寫圖片描述

這里寫圖片描述 
這里寫圖片描述 
這里寫圖片描述

Small changes to an image cause noticeable differences in the set of detection proposals for all methods except Bing. The higher repeatability of Bing is explained by its sliding window pattern, which has been designed to cover almost all possible annotations with IoU = 0.5 (see also Cracking Bing [41]).

4 Proposals召回(PROPOSAL RECALL)

當使用 proposals 的檢測方法時測試圖片中的興趣目標要求有一個好的覆蓋,因為缺失的目標在后續分類階段不能被恢復。因此通常使用召回率來評價 proposals 的質量。

4.1 召回評價協議(Evaluation protocol for recall)

4.2 召回結果(Recall results)

這里寫圖片描述 
這里寫圖片描述 
這里寫圖片描述 
這里寫圖片描述

參考及延伸閱讀材料 
[9] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable, highquality object detection,” arXiv:1412.1441, 2014. 
[12] B. Alexe, T. Deselaers, and V. Ferrari, “What is an object?” in CVPR, 2010. 
[13] J. Carreira and C. Sminchisescu, “Constrained parametric min-cuts for automatic object segmentation,” in CVPR, 2010. 
[14] I. Endres and D. Hoiem, “Category independent object proposals,” in ECCV, 2010. 
[15] K. van de Sande, J. Uijlings, T. Gevers, and A. Smeulders, “Segmentation as selective search for object recognition,” in ICCV, 2011. 
[18] M.-M. Cheng, Z. Zhang, W.-Y. Lin, and P. H. S. Torr, “BING: Binarized normed gradients for objectness estimation at 300fps,” in CVPR, 2014. 
[19] J. Carreira and C. Sminchisescu, “Cpmc: Automatic object segmentation using constrained parametric min-cuts.” PAMI, 2012. 
[20] C. Zitnick and P. Dollár, “Edge boxes: Locating object proposals from edges,” in ECCV, 2014. 
[21] I. Endres and D. Hoiem, “Category-independent object proposals with diverse ranking,” in PAMI, 2014. 
[22] P. Krähenbühl and V. Koltun, “Geodesic object proposals,” in ECCV, 2014. 
[23] P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marqués, and J. Malik, “Multiscale combinatorial grouping,” in CVPR, 2014. 
[24] B. Alexe, T. Deselares, and V. Ferrari, “Measuring the objectness of image windows,” PAMI, 2012. 
[25] E. Rahtu, J. Kannala, and M. Blaschko, “Learning a category independent object detection cascade,” in ICCV, 2011. 
[26] S. Manén, M. Guillaumin, and L. Van Gool, “Prime object proposals with randomized prim’s algorithm,” in ICCV, 2013. 
[27] P. Rantalankila, J. Kannala, and E. Rahtu, “Generating object segmentation proposals using global and local search,” in CVPR, 2014. 
[28] A. Humayun, F. Li, and J. M. Rehg, “Rigor: Recycling inference in graph cuts for generating object regions,” in CVPR, 2014. 
[29] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders, “Selective search for object recognition,” IJCV, 2013. 
[36] P. Dollár and C. L. Zitnick, “Fast edge detection using structured forests,” PAMI, 2015. 
[38] K.-Y. Chang, T.-L. Liu, H.-T. Chen, and S.-H. Lai, “Fusing generic objectness and visual saliency for salient object detection,” in ICCV, 2011. 
[39] J. Lim, C. L. Zitnick, and P. Dollár, “Sketch tokens: A learned midlevel representation for contour and object detection,” in CVPR, 2013. 
[40] M. Blaschko, J. Kannala, and E. Rahtu, “Non Maximal Suppression in Cascaded Ranking Models,” in Scandanavian Conference on Image Analysis, 2013. 
[41] Q. Zhao, Z. Liu, and B. Yin, “Cracking BING and beyond,” in BMVC, 2014. 
[42] P. Dollár and C. L. Zitnick, “Structured forests for fast edge detection,” in ICCV, 2013. 
[43] J. Feng, Y. Wei, L. Tao, C. Zhang, and J. Sun, “Salient object detection by composition,” in ICCV, 2011. 
[44] Z. Zhang, J. Warrell, and P. H. S. Torr, “Proposal generation for object detection using cascaded ranking svms,” in CVPR, 2011. 
[45] M. Van Den Bergh, G. Roig, X. Boix, S. Manen, and L. Van Gool,“Online video seeds for temporal window objectness,” in ICCV, 2013. 
[46] M. Van den Bergh, X. Boix, G. Roig, and L. Van Gool, “Seeds: Superpixels extracted via energy-driven sampling,” IJCV, 2014. 
[47] J. Kim and K. Grauman, “Shape Sharing for Object Segmentation,” in ECCV, 2012. 
[48] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in CVPR, 2014


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM