深度學習論文翻譯解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

本文轉載自查看原文 2020-07-01 15:23 2265 深度學習論文翻譯解析

論文標題：Rich feature hierarchies for accurate object detection and semantic segmentation

　　標題翻譯：豐富的特征層次結構，可實現准確的目標檢測和語義分割

論文作者：Ross Girshick Jeff Donahue Trevor Darrell Jitendra Mali

論文地址：http://fcv2011.ulsan.ac.kr/files/announcement/513/r-cnn-cvpr.pdf

RCNN的GitHub地址 : https://github.com/rbgirshick/rcnn

參考的RCNN翻譯博客：https://blog.csdn.net/v1_vivian/article/details/78599229

聲明：小編翻譯論文僅為學習，如有侵權請聯系小編刪除博文，謝謝！

小編是一個機器學習初學者，打算認真研究論文，但是英文水平有限，所以論文翻譯中用到了Google，並自己逐句檢查過，但還是會有顯得晦澀的地方，如有語法/專業名詞翻譯錯誤，還請見諒，並歡迎及時指出。

如果需要小編其他論文翻譯，請移步小編的GitHub地址

　　傳送門：請點擊我

　　如果點擊有誤：https://github.com/LeBron-Jian/DeepLearningNote

摘要

　　過去幾年，在權威數據集PASCAL上，物體檢測的效果已經達到了一個穩定水平。效果最好的方法是融合了多種低維圖像特征和高維上下文環境的復雜融合系統。在這篇論文里，我們提出了一種簡單並且可擴展的檢測算法，可以將 mAP在VOC2012最好結果的基礎上提高30%以上——達到了53.3%。我們的方法結合了兩個關鍵的因素：

1，在候選區域上自下而上使用大型卷積神經網絡（CNNs），用以定位和分割物體。
2，當帶標簽的訓練數據不足時，先針對輔助任務進行有監督預訓練，再進行特定任務的調優，就可以產生明顯的性能提升。

　　因為我們將區域提案與CNN結合，因此我們將我們的方法稱為 R-CNN（Region proposals with CNN features）：具有CNN功能的區域。完整系統的源代碼可以從：http://www.cs.berkeley.edu/～rbg/rcnn 獲得。

　　(作者也將R-CNN效果跟OverFeat 比較了一下（Overfeat是最近提出的在與我們相似的CNN特征下采樣滑動窗口進行目標檢測的一種方法），結果發現RCNN在200類ILSVRC2013檢測數據集上的性能明顯優於Overfeat。

　　Overfeat：是改進了AlexNet網絡，並用圖像縮放和滑窗方法在test數據集上測試網絡；提出一種圖像定位的方法；最后通過一個卷積神經網絡來同時進行分類，定位和檢測三個計算機視覺任務，並在 ILSVRC 2013中獲得了很好的結果。

1，引言

　　特征問題，在過去十年，各類視覺識別任務的進展都很大程度取決於SIFT[27]和HOG[7] 的使用。但是，如果我們查看經典的視覺識別任務PASCAL VOC 對象檢測的性能[13]，則通常公認的是，2010~2012年進度緩慢，取得的微小進步都是通過構建一些集成系統和采用一些成功方法的變種才達到的。

　　SIFT和HOG是塊狀方向直方圖（blockwise orientation historgrams），可以大致與V1（靈長類動物視覺通路的第一個皮質區域）中的復雜細胞相關聯。但是我們知道識別發生在多個下游階段（我們是先看到了一些特征，然后才意識到這是什么東西），也就是說對於視覺識別來說，更有價值的信息是層次化的，多階段的。

　　Fukushima 的 “neocognitron”，一種受生物學啟發用於模式識別的層次化，移動不變性模型，算是這方面最早的嘗試。然而neocognitron 缺乏監督學習算法。Lecun等人的工作表明基於反向傳播的隨機梯度下降（SGD）對訓練卷積神經網絡（CNNs）非常有效，CNNs被認為是繼承自 neocognitron的一類模型。

　　CNNs在1990年代被廣泛使用，但是隨着SVM的崛起而淡出研究主流。2012年，Krizhevsky等人在 ImageNet 大規模視覺識別挑戰賽（ILSVRC）上的出色表現重新燃起了世界對CNNs的興趣（AlexNet）。他們的成功在於120萬的標簽圖像上使用了一個大型的CNN，並且對LeCun 的CNN進行了一些改造（比如ReLU和Dropout Regularization）。

　　這個ImageNet 的結果的重要性在ILSVRC2012 workshop上得到了熱烈的討論。提煉出來的核心問題是：ImageNet的CNN分類結果在何種程度上能夠應用到 PASCAL VOC挑戰的物體檢測任務上？

　　我們通過連接圖像分類和目標檢測，回答了這個問題。本論文是第一個說明在PASCAL VOC的物體檢測任務上CNN比基於簡單類HOG特征的系統有大幅的性能提升。我們主要關注了兩個問題：使用深度網絡定位物體和在小規模的標注數據集上進行大型網絡模型的訓練。

　　與圖像分類不同的是檢測需要定位一個圖像內的許多物體。一個方法是將框定位看做是回歸問題。但Szegedy等人的工作說明這種策略不work（在VOC2007上他們的mAP是30.5%，而我們達到了58.5%）。另一個可替代的方法是使用滑動窗口探測器，通過這種方法使用CNNs至少已經有20年的時間了。通常用於一些特定的種類如人臉，行人等。為了獲得較高的空間分辨率，這些CNNs都采用了兩個卷積層和兩個池化層。我們本來也考慮過使用滑動窗口的方法，但是由於網絡層次更深，輸入圖形有非常大的感受野（195*195）和步長（32*32 ），這使得采用滑動窗口的方法充滿挑戰。

　　我們是通過操作“recognition using regions”范式，解決了CNN的定位問題。測試時，對這張圖片，產生了接近2000個與類別無關的 region prorosal，對每個CNN抽取了一個固定長度的特征向量，然后借助專門針對特定類別數據的線性SVM對每個區域進行分類。我們不考慮region的大小，使用放射圖像變形的方法來對每個不同形狀的region proposal，對每個CNN抽取了一個固定長度的特征向量，然后借助專門針對特定類別數據的線性SVM對每個區域進行分類。我們不考慮region的大小，使用仿射圖像變形的方法來對每個不同形狀的region proposal產生一個固定長度的作為 CNN 輸入的特征向量（也就是把不同大小的 proposal 放到同一個大小）。圖1展示了我們方法的全貌並突出展示了一些實驗結果。由於我們結合了 region proposals和CNNs，所以起名RCNN：regions with CNN features。

　　檢測中面對的第二個挑戰是標簽數據太少，現在可獲得的數據遠遠不夠用於訓練一個大型卷積網絡。傳統方法多是采用無監督與訓練，再進行監督調優。本文的第二個核心共享是在輔助數據集（ILSVRC）上進行有監督預訓練，再在小數據集上針對特定問題進行調優。這是在訓練數據稀少的情況下的一個非常有效的訓練大型卷積神經網絡的方法。我們的實驗中，針對檢測的調優將mAP調高了8個百分點。調優后，我們的系統在VOC2010上達到了 54%的 mAP，遠遠超過高度優化的基於 HOG的可變性部件模型（deformable part model，DPM）。我們還向讀者指出 Donahue等人的同期工作，[11]的研究表明，Krizhevsky 的CNN可以用作黑箱特征提取器（無需進行微調），從而在某些識別任務（包括場景分類，細粒度子分類和域自適應）上表現出出色的性能。

　　DPM：多尺度形變部件模型，連續獲得07~09的檢測冠軍，2010年起作者 Felzenszwalb Pedro 被VOC授予“終身成就獎”。DPM把物體看成多個組成的部件（比如人臉的鼻子，嘴巴等），用部件間的關系來描述物體，這個特性非常符合自然界很多物體的非剛體特征。DPM可以看做是HOG+SVM的擴展，很好地繼承了兩者的優點，在人臉檢測，行人檢測等任務上取得了不錯的效果，但是 DPM相對復雜，檢測速度也較慢，從而也出現了很多改進的方法。

　　我們的系統也很高效，都是小型矩陣向量相乘和貪婪NMS這些特定類別的計算。這個計算特性源自於特征在不同類別之間的共享（對於不同類別，CNNs提取到的特征是一樣的），這比之前使用的區域特征少了兩個數量級的維度。

　　HOG-like 特征的一個優點是簡單性：能夠很容易明白提取到的特征是什么，那我們能可視化出CNNs提起到的特征嗎？全連接層有超過5千4百萬的參數值，這是關鍵嗎？這都不是，我們將CNN切斷，會發現，移除掉其中 94%的參數，精度只會下降一點點。相反，通過網絡中的探測單元我們可以看到卷積層學習了一組豐富的特性。（圖3）

　　分析我們方法的失敗案例，對進一步提高很有幫助，所以我們借助 Hoiem等人的定位分析工具做實驗結果的報告和分析。分析結果，我們發現主要的錯誤是因為 mislocalization，而是由了bounding box regression 之后，可以有效的降低這個錯誤。

　　介紹技術細節之前，我們提醒大家由於 R-CNN 是在推薦區域上進行操作，所以可以很自然地擴展到語義分割任務上。只要很小的改動，我們就在 PASCAL VOC 語義分割任務上達到了很有競爭力的結果，在 VOC2011測試集上平均語義分割精度達到了 47.9%。

2，用R-CNN進行物體檢測

　　我們的物體檢測系統包含三個模塊，第一個，產生類別無關的region proposals，這些推薦定義了一個候選檢測區域的集合；第二個是一個大型卷積神經網絡，用於從每個區域抽取特定大小的特征向量；第三個是一個指定類別的線性SVM。本部分，將展示每個模塊的設計，並介紹他們的測試階段的用法，以及參數是如何學習的細節，最后給出在PASCAL VOC 2010~2012和 ILSVRC2013上的檢測結果。

2.1 模塊設計

區域推薦（region proposals）

　　近年來有很多研究都提出了產生類別無關區域推薦的方法。比如：objectness（物體性），selective search（選擇性搜索），category-independent object proposals（類別無關物體推薦），constrained parametric min-cuts（受限參最小剪切，CPMC），multi-scal combinatorial grouping（多尺度聯合分組），以及Ciresan等人的方法，將CNN用在規律空間塊裁剪上以檢測有絲分裂細胞，也算是一種特殊的區域推薦類型。由於RCNN對特定區域算法是不關心的，所以我們采用了選擇性搜索以方便和前面的工作進行可控的比較。

特征提取（Feature extraction）

　　我們使用Krizhevsky等人所描述的CNN的一個Caffe實現版本對每個推薦區域抽取了一個 4096維度的特征向量把一個輸入為227*227大小的圖片，通過五個卷積層和兩個全連接層進行前向傳播，最終得到了一個 4096-D的特征向量。讀者可以參考AlexNet獲得更多的網絡架構細節。

　　為了計算region proposal的特征，我們首先要對圖像進行轉換，使得它符合CNNs的輸入（架構中的 CNNs只能接受固定大小：227*227）。這個變換有很多辦法，我們使用了最簡單的一種。無論候選區域是什么尺寸和寬高比，我們都把候選框變形成想要的尺寸。具體的，變形之前，我們現在候選框周圍加上16的padding，再進行各向異性縮放。這種形變使得mAP提高了3到5個百分點，在補充資料中，作者對比了各向異性和各向同性縮放方法。

2.2 測試時間檢測

　　在測試階段，我們在測試圖像上使用 selective search 抽取了2000個推薦區域（實驗中，我們使用了選擇性搜索的快速模式），然后編寫每一個推薦區域，再通過CNN前向傳播計算出特征。然后我們使用對每個類別訓練出的SVM給整個特征向量中的每個類別打分。然后給出一張圖像中所有的打分區域，然后使用NMS（每個類別都是獨立進行的），拒絕掉一些和高分區域的IOU大於閾值的候選框。

運行時間分析

　　兩個特性讓檢測變得很高效。首先，所有的CNN參數都是跨類別共享的。其次，通過CNN計算的特征向量相比其他通用方法（比如spatial pyramids with bag-of-visual-word encodings 帶有視覺詞袋編碼的空間金字塔）相比，維度是很低的。UVA檢測系統的特征比我們的要多兩個數量級（360K vs 4K）。

　　這種共享的結果就是計算推薦區域特征的耗時可以分攤到所有類別的頭上（GPU：每張圖13s，CPU：每張圖53s）。唯一的和具體類別有關的計算是特征向量和SVM權重和點積，以及NMS。實踐中，所有的點積都可以批量化成一個單獨矩陣間運算。特征矩陣的典型大小是 2000*4096，SVM權重的矩陣是 4096*N，其中N是類別的數量。

　　分析表明R-CNN可以擴展到上千個類別，而不需要借用近似技術（如hashing）。即使有10萬個類別，矩陣乘法在現代多核CPU上只需要 10s 而已。但是這種高效不僅僅是因為使用了區域推薦和共享特征。由於較高維度的特征，UVX系統存儲 100k linear predictors 需要 134G的內存，而我們只要 1.5GB，比我們高了兩個數量級。

　　有趣的是R-CNN和最近 Dean等人使用 DPMs 和 hashing做檢測的工作相比，他們用了1萬個干擾類，每五分鍾可以處理一張圖片，在VOC 2007上的 mAP能達到 16%，我們的方法1萬個檢測器由於沒有做近似，可以在CPU上一分鍾跑完，達到了 59%的mAP。（3.2節）

2.3 訓練

有監督的預訓練

　　我們在大型輔助訓練集 ILSVRC2012分類數據集（沒有約束框數據）上預訓練了CNN。預訓練采用了Caffe的CNN庫。總體來說，我們的CNN十分接近Krizhevsky等人的網絡的性能，在ILSVRC2012分類驗證集在top-1錯誤率上比他們高2.2%。差異主要來自於訓練過程的簡化。

特定領域的參數調優

　　為了讓我們的CNN適應新的任務（即檢測任務）和新的領域（變形后的推薦窗口）。我們只使用變形后的推薦區域對CNN參數進行SGD訓練。我們替換掉了ImageNet專用的1000-way分類層，換成了一個隨機初始化的21-way分類層（其中20是VOC的類別數，1代表背景）。而卷積部分都沒有改變。我們對待所有的推薦區域，如果其和真實標注的框的 IoU >= 0.5 就認為是正例，否則就是負例。SGD開始的learning rate 是 0.001（是初始化預訓練時的十分之一）。這使得調優得以有效進行而不會破壞初始化的成果。每輪SGD迭代，我們通一使用32個正例窗口（跨所有類別）和96個背景窗口，即每個mini-batch 的大小為 128。另外我們傾向於采樣正例窗口，因為和背景相比，他們很稀少。

目標種類分類器

　　考慮訓練一個檢測汽車的二分類器。很顯然，一個圖像區域緊緊包裹着一輛汽車應該就是正例。同樣的，沒有汽車的就是背景區域，也就是負例。較為不明確的是怎么樣標注那些之和汽車部分重疊的區域，我們使用IOU重疊閾值來解決這個問題，低於這個閾值的就是負例。這個閾值我們選擇了 0.3，是在驗證集上基於{0， 0.1，...0.5}通過網格搜索得到的。我們發現認真選擇這個閾值很重要。如果設置Wie0.5，可以降低mAP 5個點，設置為0，就會降低4個點。正例就嚴格的是標注的框。

　　Tips：IOU < 0.3 被作為負例，ground-truth是正例，其余的全部丟棄。

　　一旦特征提取出來，並應用標簽數據，我們優化了每個類的線性SVM。由於訓練數據太大，難以裝進內存，我們選擇了標注的 hard negative mining method，高難負例挖掘算法收斂很快，實踐中只需要在所有圖像上經過一輪訓練，mAP就可以基本停止增加了。

　　hard negative mining method：難負例挖掘算法，用途就是正負例樣本數量不均衡，而負例分散代表性又不夠的問題，hard negative 就是每次把哪些頑固的棘手的錯誤，再送回去繼續練，練到你成績不再提升為止，這一個過程就叫‘hard negative mining’

　　在補充材料中，我們討論了為什么微調與SVM訓練中正例和負例的定義不同。我們還將討論為什么必須訓練檢測分類器，而不是簡單地使用經過微調的CNN的最后一層（fc8）的輸出。

　　fine-tuning階段是由於CNN對小樣本容易過擬合，需要大量訓練數據，故對IOU限制寬松：IoU > 0.5 的建議框為正樣本，否則為負樣本；SVM這種機制是由於其適用於小樣本訓練，故對樣本IoU限制嚴格：Ground Truth 為正樣本，與Ground Truth 相交 IoU < 0.3 的建議框為負樣本。

　　為什么單獨訓練了一個SVM而不是直接用softmax，作者提到，剛開始時只是用了ImageNet預訓練了CNN，並用提取的特征訓練了SVM，此時用正負樣本標記方法就是前面所述的0.3，后來剛開始使用 fine-tuning時，也使用了這個方法，但是發現結果很差，於是通過調試選擇0.5 這個方法，作者認為這樣可以加大樣本的數量，從而避免過擬合。然而，IoU大於0.5就作為正樣本會導致網絡定位准確度的下降，故使用了SVM做檢測，全部使用ground-truth嚴格不作為正副本，且使用非正樣本的，且IoU大於 0.3的“hard negatives”，提高了定位的准確度。

2.4 在PASCAL VOC 2010~2012上的結果

　　按照PASCAL VOC的最佳實踐步驟，我們在VOC2007的數據集上驗證了我們所有的設計思路和參數處理，我們在VOC2012上訓練和優化了SVM，最終結果再VOC 2010~12的數據庫，我們在評估服務器上提交了兩個結果（一個是有 bunding box regression，一個沒有）。

　　表1展示了在VOC2010的結果，我們將自己的方法同四種先進基准方法做對比，其中包括SegDPM，這種方法將DPM檢測子與語義分割系統相結合並且附加的inter-detector的環境和圖片檢測器。更加恰當的是比較同Uijling的UVA系統比較，因為我們的方法同樣基於候選框算法。對於候選框區域的分類，他們通過構建一個四層的金字塔，並且將之與SIFT模板結合，SIFT為擴展的OpponsentSIFT和RGB-SIFT描述子，每一個向量被量化為 4000-word的codebook。分類任務由一個交叉核的SVM承擔，對比這種方法的多特征方法，非線性內核的SVM方法，我們在mAP達到了一個更大的提升，從 35.1%提升到53.7%，而且速度更快。我們的方法在 VOC 2011/2012測試集上達到了相似的檢測效果mAP 53.3%。

3，可視化，消融和模型的錯誤

3.1 可視化學習的特征

　　直接可視化第一層 filters非常容易理解，他們主要捕獲方向性邊緣和對比色。難以理解的是后面的層，Zeiler and Fgrgus 提出了一種可視化的很棒的反卷積辦法。我們則使用了一種簡單的非參數化方法，直接展示網絡學習到的東西。

　　這個想法是單一輸出網絡中一個特定單元（特征），然后把它當做一個正確類別的物體檢測器來使用。方法是這樣的，先計算所有抽取出來的推薦區域（大約1000萬），計算每個區域所導致的對應單元的激活值，然后按激活值對這些區域進行排序，然后進行最大值抑制，最后展示分值最高的若干個區域。這個方法讓被選中的單元在遇到它想激活的輸入時“自己說話”。我們避免平均化是為了看到不同的視覺模式和深入觀察單元計算出來的不變性。

　　我們可視化了第五層的池化層 pool5，是卷積網絡的最后一層，feature map（卷積核和特征數的總稱）的大小是 6*6*256 = 9216維。忽略邊界效應，每個pool5單元擁有195*195的感受野，輸入是 227*227.pool5中間的單元，幾乎是一個全局視角，而邊緣的單元有較小的帶裁切的支持。

　　圖3的每一行顯示了對於一個 pool5 單元的最高 16個激活區域情況，這個實例來自於 VOC 2007上我們調優的CNN，這里只展示了 256個單元中的6個（附錄D包含更多），我們看看這些單元都學到了什么。第二行，有一個單元看到狗和斑點的時候就會激活，第三行對應紅斑點，還有人臉，當然還有一些抽象的模式，比如文字和帶窗口的三角結構。這個網絡似乎學到了一些類別調優相關的特征，這些特征都是形狀，紋理，顏色和材質特性的分布式表示。而后續的 fc6層則對這些豐富的特征建立大量的組合來表達各種不同的事物。

3.2 消融研究（Ablation studies）

　　tips：Albation study 就是為了研究模型中所提出的一些結構是否有效而設計的實驗。如你提出了某某結構，但是要想確定這個結構是否有利於最終的效果，那就要將去掉該結構的網絡與加上該結構的網絡所得到的結果進行對比，這就是 ablation study，也就是控制變量法。

沒有調優的各層性能

　　為了理解那一層對於檢測的性能十分重要，我們分析了CNN最后三層的每一層在 VOC 2007上面的結果。Pool5在3.1 中做過簡短的表述。最后兩層下面來總結一下。

　　fc6 是一個與pool5連接的全連接層。為了計算特征，它和 pool5的 feature map（reshape成一個 9216維度的向量）做了一個 4096*9216的矩陣乘法，並添加了一個 bias 向量。中間的向量是逐個組件的半波整流（component wise half wave rectified）（RELU （x -> max(0, x)））

　　fc7是網絡的最后一層，跟 fc6 之間通過一個 4096*4096 的矩陣相乘。也是添加了 bias 向量和應用了RELU。

　　我們先來看看沒有調優的CNN在PASCAL 上的表現，沒有調優是指所在的CNN參數就是在ILSVRC 2012上訓練后的狀態。分析每一層的性能顯示來自於fc7的特征泛化能力不如fc6的特征。這意味着29%的CNN參數，也就是 1680萬的參數可以移除掉，而且不影響mAP。更多的驚喜是即使同時移除fc6和fc7，僅僅使用pool5的特征，只使用CNN參數的6%也能有非常好的結果。可見CNN的主要表達力來自於卷積層，而不是全連接層。這個發現提醒我們也許可以在計算一個任意尺寸的圖片的稠密特征圖（dense feature map）時僅僅使用CNN的卷積層。這種表示可以直接在 pool5 的特征上進行滑動窗口檢測的實驗。

調優后的各層性能

　　我們現在看看調優后在VOC 2007上的結果表現。提升非常明顯，mAP提升了8個百分點，達到了54.2%。fc6和fc7的提升明顯優於pool5，這說明 pool5從ImageNet學習的特征通用性很強，在它之上層的大部分提升主要是在學習領域相關的非線性分類器。

對比最近的特征學習方法

　　相當少的特征學習方法應用於VOC數據集。我們找到的兩個最近的方法都是基於固定探測模型。為了參照的需要，我們也將基於基本HOG的DFM方法的結果加入比較。

　　第一個DPM的特征學習方法，DPM ST將HOG中加入略圖表征的概率直方圖。直觀的，一個略圖表征概率通過一個被訓練出來的分類 35*35 像素路徑為一個 150 略圖表征的隨機森林方法計算。

　　第二個方法，DPM HSC，將 HOG特征替換成一個稀疏編碼的直方圖。為了計算HSC，在每個像素上使用一個學習到的 1007*7像素（灰度空間）原子求解稀疏編碼激活，由此產生的激活以三種方式（全波和半波）整流，空間池化，L2標准化，然后進行冪運算。

　　所有的RCNN變種算法都要強於這三個 DPM 方法（表2,8~10行），包括兩種特征學習的方法與最新版本的 DPM方法比較，我們的mAP要多大約20個百分點，61%的相對提升。略圖表征與HOG相結合的方法比單純HOG的性能高出2.5%，而HSC的方法相對於HOG提升4個百分點（當內在的與他們自己的DPM基准比較，全都是用的非公共 DPM執行，這低於開源版本）。這些方法分別達到了 29.1%和34.3%。

3.3 檢測錯誤分析

　　為了揭露出我們方法的錯誤之處，我們使用Hoiem提出的優秀的檢測分析工具，來理解調參是怎么改變他們，並且觀察相對於 DPM方法，我們的錯誤形式。這個分析方法全部的介紹超出了本文的介紹范圍，我們建議讀者查閱文獻21來了解更加詳細的介紹（例如“normalized AP”的介紹），由於這些分析是不太有關聯性，所以我們放在圖4和圖5的題注里討論。

3.4 Bounding box回歸

　　基於錯誤分析，我們使用了一種簡單的方法減少定位誤差，受到 DPM[17]中使用的約束框回歸訓練啟發，我們訓練了一個線性回歸模型在給定一個選擇區域的 pool5特征時去預測了一個新的檢測窗口。詳細的細節參考附錄C。表1，表2 和圖4的結果說明這個簡單的方法，修復了大量的錯位檢測，提升了3~4個百分點。

4，語義分割

　　區域分類是語義分割的標准技術，這使得我們很容易將R-CNN 應用到PASCAL VOC 分割任務的挑戰。為了和當前主流的語義分割系統（稱為O2P，second-order piiling[4]）做對比，我們使用了一個開源的框架。O2P使用CPMC針對每張圖片產生了150個區域推薦，並預測每個區域的品質，對於每個類別，進行支撐向量回歸（support vector regression，SVR）。他們的方法很高效，主要得益於CPMC區域的品質和多特征類型的強大二階池化（second -sencond pooling，SIFT和LBP的增強變種）。我們也注意到Farabet等人[16]將CNN用作多尺度逐像素分類器，在幾個高密度場景標注數據集（不包括PASCAL）上取得了不錯的成績。

　　我們學習[2, 4]，將Haeiharan等人提供的額外標注信息補充到PASCAL分割訓練集中。設計選擇和超參數都在 VOC2011驗證集上進行交叉驗證。最后的測試結果只執行了一次。

用於分割的CNN特征

　　為了計算CPMC區域上的特征，我們執行了三個策略，每個策略都先將矩形窗口變形到 227*227大小。第一個策略完全忽略區域的形狀（full ignore），直接在變形后的窗口上計算 CNN特征，就和我們檢測時做的一樣。但是，這些特征忽略了區域的非矩形形狀。兩個區域也許包含相似的約束框卻幾乎沒有重疊。因此，第二個策略（fg，foreground）只計算前景遮罩（foreground mask）的CNN特征，我們將所有的背景像素替換成平均輸入，這樣減去平均值后他們就會變成0。第三個策略（full+fg），簡單的並聯全部（full）特征和前景（fg）特征；我們的實驗驗證了他們的互補性。

在VOC 2011 上的結果

　　表3顯示了與O2P相比較的VOC 2011驗證集的結果（每個類別的計算結果見補充材料）。在每個特征計算策略中，FC6總是優於FC7，下面就針對FC6進行討論，fg策略略優於full，表明掩蔽區域形狀提供了更強的信號，匹配我們的直覺。然而，full+fg 的平均精度為 47.9%，比 fg優4.2%（也稍優於O2P），這表明即使提供了FG特征，由full特征提供的上下文也是有很多信息。值得注意的是，訓練20個SVR，在我們的full+fg 特征在單核上需要1個小時，而在O2P特征則需要10個小時。

　　在表4中，我們給出了 VOC 2011測試集上的結果。比較我們的最佳執行方法（full + fg），對抗兩個強大的 baselines。我們的方法在 21 個類別中的 11 個達到最高的分割精度，最高的總體分割精度為 47.9%，平均跨類別（但可能與O2P結果在任何合理的誤差范圍內）。通過微調可能會取得更好的成績。

5，總結

　　最近幾年，物體檢測陷入停滯，表現最好的檢測系統是復雜的將多低層次的圖像特征與高層次的物體檢測器環境與創建識別相結合。本文提出了一種簡單並且可擴展的物體檢測方法，達到了VOC 2012數據集相對之前最好性能的 30%的提升。

　　我們取得這個性能主要通過兩個方面：第一是應用了自底向上的候選框訓練的高容量的卷積神經網絡進行定位和分割物體。另外一個是使用在標簽數據匱乏的情況下訓練一個大規模神經網絡的方法。我們展示了在有監督的情況下使用豐富的數據集（圖片分類）預訓練一個網絡作為輔助性的工作是很有效的，然后采用稀少數據（檢測）去調優定位任務的網絡。我們猜測“有監督的預訓練 + 特定領域的調優” 這一范式對數據稀少的視覺問題是很有效的。

　　最后，我們注意到能得到這些結果，將計算機視覺中經典的工具和深度學習（自底向上的區域候選框和卷積神經網絡）組合是非常重要的。而不是違背科學探索的主線，。這兩個部分是自然而且必然的結合。

致謝

　　這項研究得到了DARPA Mind的Eye和MSEE計划的部分支持，由NSF授予IIS-0905647，IIS-1134072和IIS-1212798，MURI N000014-10-1-0933的支持，以及豐田的支持。本研究中使用的GPU由NVIDIA Corporation慷慨捐贈。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文筆記（一）---翻譯 Rich feature hierarchies for accurate object detection and semantic segmentation 【CV論文閱讀】：Rich feature hierarchies for accurate object detection and semantic segmentation 目標檢測--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014) Fully Convolutional Networks for semantic Segmentation（深度學習經典論文翻譯）深度學習論文翻譯解析（四）：Faster R-CNN: Down the rabbit hole of modern object detection 深度學習論文翻譯解析（二十）：YOLOv4: Optimal Speed and Accuracy of Object Detection 深度學習論文翻譯解析（七）：Support Vector Method for Novelty Detection 深度學習論文翻譯解析（十三）：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Learning Rich Features from RGB-D Images for Object Detection and Segmentation論文筆記【Semantic segmentation】Fully Convolutional Networks for Semantic Segmentation 論文解析