R-CNN論文翻譯
《Rich feature hierarchies for accurate object detection and semantic segmentation》
用於精確物體定位和語義分割的豐富特征層次結構
摘要:
過去幾年,在權威數據集PASCAL上,物體檢測的效果已經達到一個穩定水平。效果最好的方法是融合了多種圖像低維特征和高維上下文環境的復雜結合系統。在這篇論文里,我們提出了一種簡單並且可擴展的檢測算法,可以將mAP在VOC2012最好結果的基礎上提高30%以上——達到了53.3%。我們的方法結合了兩個關鍵的因素:
(1)將大型卷積神經網絡(CNNs)應用於自下而上的候選區域以定位和分割物體。
(2)當帶標簽的訓練數據不足時,先針對輔助任務進行有監督預訓練,再進行特定任務的調優,就可以產生明顯的性能提升。
因為我們結合了CNNs和候選區域,該方法被稱為R-CNN:Regions with CNN features。我們也把R-CNN效果跟OverFeat比較了下(OverFeat是最近提出的在與我們相似的CNN特征下采用滑動窗口進行目標檢測的一種方法),結果發現RCNN在200類ILSVRC2013檢測數據集上的性能明顯優於OVerFeat。本文整個系統源碼在:http://www.cs.berkeley.edu/˜rbg/rcnn。 (譯者注:已失效,新地址:https://github.com/rbgirshick/rcnn)
1、介紹
特征很重要。在過去十年,各類視覺識別任務基本都建立在對SIFT[29]和HOG[7]特征的使用。但如果我們關注一下PASCAL VOC對象檢測[15]這個經典的視覺識別任務,就會發現,2010-2012年進展緩慢,取得的微小進步都是通過構建一些集成系統和采用一些成功方法的變種才達到的。
SIFT和HOG是塊方向直方圖(blockwise orientation histograms),一種類似大腦初級皮層V1層復雜細胞的表示方法。但我們知道識別發生在多個下游階段,也就是說對於視覺識別更有價值的信息是層次化的,通過多個階段來計算特征。
Fukushima的“neocognitron”[19],一種受生物學啟發用於模式識別的層次化、移動不變性模型,算是這方面最早的嘗試。然而neocognitron缺乏監督學習算法。Rumelhart[33],Lecun[26]等人的工作表明基於反向傳播的隨機梯度下降對訓練卷積神經網絡(CNNs)非常有效,CNNs被認為是繼承自neocognitron的一類模型。
CNNs在1990年代被廣泛使用[27],但隨即便因為SVM的崛起而淡出研究主流。2012年,Krizhevsky等人[25]在ImageNet大規模視覺識別挑戰賽(ILSVRC)[9, 10]上的出色表現重新燃起了世界對CNNs的興趣。他們的成功在於在120萬的標簽圖像上使用了一個大型的CNN,並且對LeCUN的CNN進行了一些改造(比如ReLU和Dropout Regularization)。
這個ImangeNet的結果的重要性在ILSVRC2012 workshop上得到了熱烈的討論。可提煉出來的核心問題如下:ImageNet上的CNN分類結果在何種程度上能夠應用到PASCAL VOC挑戰的物體檢測任務上?
我們填補了圖像分類和物體檢測之間的空白,回答了這個問題。本論文是第一個說明在PASCAL VOC的物體檢測任務上CNN比基於簡單類HOG特征的系統有大幅的性能提升。我們主要關注了兩個問題:使用深度網絡定位物體和在小規模的標注數據集上進行大型網絡模型的訓練。
與圖像分類不同的是檢測需要定位一個圖像內的許多物體。一個方法是將框定位看做是回歸問題。但和我們同時進行Szegedy等人的工作說明這種策略並不work(在VOC2007上他們的mAP是30.5%,而我們的達到了58.5%)。另一個辦法就是創建滑窗檢測器。CNNs已經被用於此種方式至少二十年了,主要在一些特定的物體類別上,如人臉[32, 40],行人[35]。為了獲得較高的空間分辨率,這些CNNs都采用了兩個卷積層和兩個池化層。我們也采納了滑窗方法。但我們的網絡層次更深,擁有5個卷積層,並有非常大的感受野(195×195)and strides(32×32),這使得在滑窗模式中做精確定位成為一項開放的技術挑戰。
有一種已經成功用於物體檢測[39]和語義分割[5],操縱“對區域進行識別”的模式[21],我們解決了CNN定位問題。測試時,我們的方法產生了接近2000個與類別獨立的區域推薦,對每個推薦使用CNN抽取了一個固定長度的特征向量,然后借助專門針對特定類別數據的線性SVM對每個區域進行分類。通過簡單的技術(仿射變換)從每個推薦區域計算出一個固定大小的CNN輸入,從而支持各種區域尺寸。圖1展示了我們方法的全貌並突出展示了一些實驗結果。由於我們結合了Region proposals和CNNs,所以起名R-CNN:Regions with CNN features。

本篇是一個更新的版本,我們特意追加了R-CNN和最近提出的OverFeat檢測系統在ILSVRC2013的200分類檢測數據集上對比。OverFeat使用了一個滑動窗口CNN做檢測,目前為止是ILSVRC2013檢測上表現最好的方法。我們的結果顯示,R-CNN表現更加卓越,mAP達到31.4%,大大超過了OverFeat的24.3%的表現。
檢測中面對的第二個挑戰是標簽數據太少,現在可獲得的數據遠遠不夠用來訓練一個大型卷積網絡。傳統方法多是采用無監督與訓練,再進行有監督調優(如[35])。本文的第二個核心貢獻是在輔助數據集(ILSVRC)上進行有監督預訓練,再在小數據集上針對特定問題進行調優是在訓練數據稀少的情況下一個非常有效的訓練大型卷積神經網絡的方法。我們的實驗中,針對檢測的調優將mAP提高了8個百分點。調優后,我們的系統在VOC2010上達到了54%的mAP,遠遠超過高度優化的基於HOG的可變性部件模型(deformable part model,DPM)[17, 20]。另外也向讀者朋友們Donahue等人同時期的工作,其也說明Krizhevsky的CNN可以用來作為一個黑盒的特征提取器,沒有調優的情況下就可以在多個識別任務上包括場景分類、細粒度的子分類和領域適應方面都表現出色。
我們的系統也很高效,都是小型矩陣向量相乘和貪婪最大值抑制這些特定類別的計算。這個計算特性源自於特征在跨類別的共享,比之前使用的區域特征([39])少了兩個數量級的維度。
分析我們方法的失敗案例,對於進一步提高很有幫助,所以我們借助Hoiem等人的定位分析工具[23]做實驗結果的報告和分析。作為本次分析的直接結果,我們發現一個簡單的框回歸的方法會明顯地削弱位置錯位問題,而錯位是我們的系統面對的主要錯誤模式。
介紹技術細節之前,我們提醒大家由於R-CNN是在推薦區域上進行操作,所以可以很自然地擴展到語義分割任務上。疼愛很小的改動,我們就在PASCAL VOC語義分割任務上達到了很有競爭力的結果,在VOC2011測試集上平均語義分割精度達到了47.9%。
2、用R-CNN做物體檢測
我們的物體檢測系統有三個模塊構成。第一個,產生類別無關的推薦區域。這些推薦定義了一個候選檢測區域的集合;第二個是一個大型卷積神經網絡,用於從每個區域抽取特定大小的特征向量;第三個是一個指定類別的線性SVM。本部分,將展示每個毛快的設計,並介紹他們的測試階段的用法,以及參數是如何學習的細節,最后給出在PASCAL VOC 2010-12和ILSVRC2013上的檢測結果。
2.1 模塊設計
區域推薦(Region Proposals)。近來有很多研究都提出了產生類別無關區域推薦的方法。比如物體性(objectness)[1],選擇性搜索[39],類別無關物體推薦[14],受限參最小剪切(constrained parametric min-cuts, CPMC)[5],多尺度聯合分組[3],以及Ciresan等人的方法,將CNN用在規律空間塊裁剪上以檢測有絲分裂細胞,也算是一種特殊的區域推薦類型。由於R-CNN對特定區域算法是不關心的,所以我們采用了選擇性搜索以方便和前任的工作[39, 41]進行可控的比較。
特征抽取。我們使用Krizhevsky等人[25]所描述的CNN的一個Caffe[24]實現版本對每個推薦區域抽取一個4096維度的特征向量。通過前向傳播一個277×277大小的RGB圖像到五個卷積層和兩個全連接層來計算特征。讀者可以參考[24, 25]獲得更多的網絡架構細節。
為了計算推薦區域的特征,首先需要將輸入的圖像數據轉變成CNN可以接受的方式(我們架構中的CNN只能接受固定大小的像素寬高比,為227 × 227)。這個變換有很多辦法,我們使用了最簡單的一種。無論候選區域是什么尺寸,我們都把環繞該區域的緊邊框內的所有的像素變形到希望的尺寸。變形之前,先放大緊邊框以便在新的變形后的尺寸上保證變形圖像上下文的p的像素都圍繞在原始框上(我們使用p=16)(譯者注:翻譯的不好,原文:Prior to warping, we dilate the tight bounding box so that at the warped size there are exactly p pixels of warped image context around the original box (we use p = 16))。圖2展示了一些變形訓練圖像的例子。變形的候選方法可以參考附錄A。

2.2 測試階段的物體檢測
在測試階段,在測試圖像上使用選擇性搜索抽取2000個推薦區域(實驗中,我們使用了選擇性搜索的快速模式)。然后變形每一個推薦區域,再通過CNN前向傳播計算出特征。然后我們使用訓練過的對應類別的SVM給整個特征向量中的每個類別單獨打分。然后給出一張圖像中所有的打分區域,然后使用貪婪非最大化抑制算法(每個類別是獨立進行的),如果一個區域和那些大於學習閾值的高分且被選中的區域有交叉( intersection-overunion(IoU) )重疊的話,就會被拒絕。
運行時分析。兩個特性讓檢測變得很高效。首先,所有的CNN參數都是跨類別共享的。其次,通過CNN計算的特征向量相比其他通用方法(比如spatial pyramids with bag-of-visual-word encodings)維度是很低的。由於UVA檢測系統[39]的特征比我們的要多兩個數量級(360k vs 4k)。
這種共享的結果就是計算推薦區域特征的耗時可以分攤到所有類別的頭上(GPU:每張圖13s,CPU:每張圖53s)。唯一的和類別有關的計算都是特征和SVM權重以及最大化抑制之間的點積。實踐中,所有的點積都可以批量化成一個單獨矩陣間運算。特征矩陣的典型大小是2000×4096,SVM權重的矩陣是4096xN,其中N是類別的數量。
分析表明R-CNN可以擴展到上千個類別,而不需要訴諸近似技術(如hashing)。及時有10萬個類別,導致的矩陣乘法在現代多核CPU上只想好10s而已。但這種高效不僅僅是因為使用了區域推薦和共享特征。由於較高維度的特征,UVA系統需要134GB的內存來存10萬個預測因子,而我們只要1.5GB,比我們高了兩個數量級。更有趣的是R-CCN和最近Dean等人關於可擴展檢測機制的工作的對比,他們使用了 DPMs和散列[8],用了1萬個干擾類, 每五分鍾可以處理一張圖片,在VOC2007上的mAP能達到16%。我們的方法1萬個檢測器由於沒有做近似,可以在CPU上一分鍾跑完,達到59%的mAP(3.2節)。

2.3 訓練
有監督預訓練。我們在大型輔助訓練集ILSVRC2012分類數據集(沒有約束框數據)上預訓練了CNN。預訓練采用了Caffe的CNN庫[24]。簡單地說,我們的CNN十分接近krizhevsky等人的網絡的性能,在ILSVRC2012分類驗證集(譯者注:validation set,不是test set)在top-1錯誤率上比他們高2.2%。差異主要來自於訓練過程的簡化。
特定領域的參數調優。為了讓我們的CNN適應新的任務(即檢測任務)和新的領域(變形后的推薦窗口)。我們只使用變形后的推薦區域對CNN參數進行SGD訓練。我們替掉了ImageNet專用的1000路分類層,換成了一個隨機初始化的(N+1)路分類層,其中N是類別數,1代表背景,而卷積部分都沒有改變。對於VOC,N=20,對於ILSVRC2013,N=200。我們對待所有的推薦區域,如果其和真實標注的框的IoU重疊>= 0.5就認為是正例,否則就是負例。SGD開始的learning_rate為0.001(是初始化預訓練時的十分之一),這使得調優得以有效進行而不會破壞初始化的成果。每輪SGD迭代,我們統一使用32個正例窗口(跨所有類別)和96個背景窗口,即每個mini-batch的大小是128。另外我們傾向於采樣正例窗口,因為和背景相比他們很稀少。
目標種類分類器。思考一下檢測汽車的二分類器。很顯然,一個圖像區域緊緊包裹着一輛汽車應該就是正例。相似的,背景區域應該看不到任何汽車,就是負例。較為不明晰的是怎樣標注哪些只和汽車部分重疊的區域。我們使用IoU重疊閾值來解決這個問題,低於這個閾值的就是負例。這個閾值我們選擇了0.3,是在驗證集上基於{0, 0.1, … 0.5}通過網格搜索得到的。我們發現認真選擇這個閾值很重要。如果設置為0.5,如[39],可以提升mAP5個點,設置為0,就會降低4個點。正例就嚴格的是標注的框。
一旦特征提取出來,就應用標簽數據,然后優化每個類的線性SVM。由於訓練數據太大,難以裝進內存,我們選擇了標准的hard negative mining method(高難負例挖掘算法?用途就是正負例數量不均衡,而負例分散代表性又不夠的問題)[17, 37]。 高難負例挖掘算法收斂很快,實踐中只要經過一輪mAP就可以基本停止增加了。
附錄B中,我們討論了,正例和負例在調優和SVM訓練兩個階段的為什么定義得如此不同。我們也會討論訓練檢測SVM的平衡問題,而不只是簡單地使用來自調優后的CNN的最終softmax層的輸出。
2.4 PASCAL VOC 2010-12結果
按照PASCAL VOC的最佳實踐步驟,我們在VOC2007的數據集上驗證了我們所有的設計思想和參數處理,對於在2010-2012數據庫中,我們在VOC2012上訓練和優化了我們的支持向量機檢測器,我們一種方法(帶BBox和不帶BBox)只提交了一次評估服務器
表1展示了(本方法)在VOC2010的結果,我們將自己的方法同四種先進基准方法作對比,其中包括SegDPM,這種方法將DPM檢測子與語義分割系統相結合並且使用附加的內核的環境和圖片檢測器打分。更加恰當的比較是同Uijling的UVA系統比較,因為我們的方法同樣基於候選框算法。對於候選區域的分類,他們通過構建一個四層的金字塔,並且將之與SIFT模板結合,SIFT為擴展的OpponentSIFT和RGB-SIFT描述子,每一個向量被量化為4000詞的codebook。分類任務由一個交叉核的支持向量機承擔,對比這種方法的多特征方法,非線性內核的SVM方法,我們在mAP達到一個更大的提升,從35.1%提升至53.7%,而且速度更快。我們的方法在VOC2011/2012數據達到了相似的檢測效果mAP53.3%。
2.5 . ILSVRC2013 detection結果
第四節,我們給出ILSVRC2013檢測集的概覽並提供一些運行R-CNN時所作的各種選擇的細節。
3. 可視化、融合、模型的錯誤
3.1 可視化學習到的特征
直接可視化第一層特征過濾器非常容易理解[25],它們主要捕獲方向性邊緣和對比色。難以理解的是后面的層。Zeiler and Fergus提出了一種可視化的很棒的反卷積辦法[42]。我們則使用了一種簡單的非參數化方法,直接展示網絡學到的東西。這個想法是單一輸出網絡中一個特定單元(特征),然后把它當做一個正確類別的物體檢測器來使用。
方法是這樣的,先計算所有抽取出來的推薦區域(大約1000萬),計算每個區域所導致的對應單元的激活值,然后按激活值對這些區域進行排序,然后進行最大值抑制,最后展示分值最高的若干個區域。這個方法讓被選中的單元在遇到他想激活的輸入時“自己說話”。我們避免平均化是為了看到不同的視覺模式和深入觀察單元計算出來的不變性。
我們可視化了第五層的池化層pool5,是卷積網絡的最后一層,feature_map(卷積核和特征數的總稱)的大小是6 x 6 x 256 = 9216維。忽略邊界效應,每個pool5單元擁有195×195的感受野,輸入是227×227。pool5中間的單元,幾乎是一個全局視角,而邊緣的單元有較小的帶裁切的支持。
圖4的每一行顯示了對於一個pool5單元的最高16個激活區域情況,這個實例來自於VOC 2007上我們調優的CNN,這里只展示了256個單元中的6個(附錄D包含更多)。我們看看這些單元都學到了什么。第二行,有一個單元看到狗和斑點的時候就會激活,第三行對應紅斑點,還有人臉,當然還有一些抽象的模式,比如文字和帶窗戶的三角結構。這個網絡似乎學到了一些類別調優相關的特征,這些特征都是形狀、紋理、顏色和材質特性的分布式表示。而后續的fc6層則對這些豐富的特征建立大量的組合來表達各種不同的事物。

3.2 消融研究
沒有調優的各層性能。為了理解哪一層對於檢測的性能十分重要,我們分析了CNN最后三層的每一層在VOC2007上面的結果。Pool5在3.1中做過剪短的表述。最后兩層下面來總結一下。
fc6是一個與pool5連接的全連接層。為了計算特征,它和pool5的feature map(reshape成一個9216維度的向量)做了一個4096×9216的矩陣乘法,並添加了一個bias向量。中間的向量是逐個組件的半波整流(component-wise half-wave rectified)ReLU(x <– max(0,="" x))。<="" p="">
fc7是網絡的最后一層。跟fc6之間通過一個4096×4096的矩陣相乘。也是添加了bias向量和應用了ReLU。
我們先來看看沒有調優的CNN在PASCAL上的表現,沒有調優是指所有的CNN參數就是在ILSVRC2012上訓練后的狀態。分析每一層的性能顯示來自fc7的特征泛化能力不如fc6的特征。這意味29%的CNN參數,也就是1680萬的參數可以移除掉,而且不影響mAP。更多的驚喜是即使同時移除fc6和fc7,僅僅使用pool5的特征,只使用CNN參數的6%也能有非常好的結果。可見CNN的主要表達力來自於卷積層,而不是全連接層。這個發現提醒我們也許可以在計算一個任意尺寸的圖片的稠密特征圖(dense feature map)時使僅僅使用CNN的卷積層。這種表示可以直接在pool5的特征上進行滑動窗口檢測的實驗。
調優后的各層性能。我們來看看調優后在VOC2007上的結果表現。提升非常明顯,mAP提升了8個百分點,達到了54.2%。fc6和fc7的提升明顯優於pool5,這說明pool5從ImageNet學習的特征通用性很強,在它之上層的大部分提升主要是在學習領域相關的非線性分類器。
對比其他特征學習方法。相當少的特征學習方法應用與VOC數據集。我們找到的兩個最近的方法都是基於固定探測模型。為了參照的需要,我們也將基於基本HOG的DFM方法的結果加入比較
第一個DPM的特征學習方法,DPM ST,將HOG中加入略圖表征的概率直方圖。直觀的,一個略圖就是通過圖片中心輪廓的狹小分布。略圖表征概率通過一個被訓練出來的分類35*35像素路徑為一個150略圖表征的的隨機森林方法計算
第二個方法,DPM HSC,將HOG特征替換成一個稀疏編碼的直方圖。為了計算HSC(HSC的介紹略)
所有的RCNN變種算法都要強於這三個DPM方法(表2 8-10行),包括兩種特征學習的方法(特征學習不同於普通的HOG方法?)與最新版本的DPM方法比較,我們的mAP要多大約20個百分點,61%的相對提升。略圖表征與HOG現結合的方法比單純HOG的性能高出2.5%,而HSC的方法相對於HOG提升四個百分點(當內在的與他們自己的DPM基准比價,全都是用的非公共DPM執行,這低於開源版本)。這些方法分別達到了29.1%和34.3%。
3.3 網絡架構
本文中的大部分結果所采用的架構都來自於Krizhevsky等人的工作[25]。然后我們也發現架構的選擇對於R-CNN的檢測性能會有很大的影響。表3中我們展示了VOC2007測試時采用了16層的深度網絡,由Simonyan和Zisserman[43]剛剛提出來。這個網絡在ILSVRC2014分類挑戰上是最佳表現。這個網絡采用了完全同構的13層3×3卷積核,中間穿插了5個最大池化層,頂部有三個全連接層。我們稱這個網絡為O-Net表示OxfordNet,將我們的基准網絡稱為T-Net表示TorontoNet。
為了使用O-Net,我們從Caffe模型庫中下載了他們訓練好的權重VGG_ILSVRC_16_layers。然后使用和T-Net上一樣的操作過程進行調優。唯一的不同是使用了更小的Batch Size(24),主要是為了適應GPU的內存。表3中的結果顯示使用O-Net的R-CNN表現優越,將mAP從58.5%提升到了66.0%。然后它有個明顯的缺陷就是計算耗時。O-Net的前向傳播耗時大概是T-Net的7倍。
3.4 檢測錯誤分析
為了揭示出我們方法的錯誤之處, 我們使用Hoiem提出的優秀的檢測分析工具,來理解調參是怎樣改變他們,並且觀察相對於DPM方法,我們的錯誤形式。這個分析方法全部的介紹超出了本篇文章的范圍,我們建議讀者查閱文獻21來了解更加詳細的介紹(例如歸一化AP的介紹),由於這些分析是不太有關聯性,所以我們放在圖4和圖5的題注中討論。

3.5 Bounding-box回歸
基於錯誤分析,我們使用了一種簡單的方法減小定位誤差。受到DPM[17]中使用的約束框回歸訓練啟發,我們訓練了一個線性回歸模型在給定一個選擇區域的pool5特征時去預測一個新的檢測窗口。詳細的細節參考附錄C。表1、表2和圖5的結果說明這個簡單的方法,修復了大量的錯位檢測,提升了3-4個百分點。


3.6 定性結果【略】
4、 ILSVRC2013檢測數據集【略】
5 、語義分割
區域分類是語義分割的標准技術,這使得我們很容易將R-CNN應用到PASCAL VOC分割任務的挑戰。為了和當前主流的語義分割系統(稱為O2P,second-order pooling[4])做對比,我們使用了一個開源的框架。O2P使用CPMC針對每張圖片產生150個跟區域推薦,並預測每個區域的品質,對於每個類別,進行支撐向量回歸(support vector regression,SVR)。他們的方法很高效,主要得益於CPMC區域的品質和多特征類型的強大二階池化(second-second pooling,SIFT和LBP的增強變種)。我們也注意到Farabet等人[16]將CNN用作多尺度逐像素分類器,在幾個高密度場景標注數據集(不包括PASCAL)上取得了不錯的成績。
我們學習[2,4],將Hariharan等人提供的額外標注信息補充到PASCAL分割訓練集中。設計選擇和超參數都在VOC 2011驗證集上進行交叉驗證。最后的測試結果只執行了一次。
用於分割的CNN特征。為了計算CPMC區域上的特征,我們執行了三個策略,每個策略都先將矩形窗口變形到227×227大小。第一個策略完全忽略區域的形狀(full ignore),直接在變形后的窗口上計算CNN特征,就和我們檢測時做的一樣。但是,這些特征忽略了區域的非矩形形狀。兩個區域也許包含相似的約束框卻幾乎沒有重疊。因此,第二個策略(fg,foreground)只計算前景遮罩(foreground mask)的CNN特征,我們將所有的背景像素替換成平均輸入,這樣減除平均值后他們就會變成0。第三個策略(full+fg),簡單的並聯全部(full)特征和前景(fg)特征;我們的實驗驗證了他們的互補性。
6. 結論
最近幾年,物體檢測陷入停滯,表現最好的檢測系統是復雜的將多低層級的圖像特征與高層級的物體檢測器環境與場景識別相結合。本文提出了一種簡單並且可擴展的物體檢測方法,達到了VOC2012數據集相對之前最好性能的30%的提升。
我們取得這個性能主要通過兩個理解:第一是應用了自底向上的候選框訓練的高容量的卷積神經網絡進行定位和分割物體。另外一個是使用在標簽數據匱乏的情況下訓練大規模神經網絡的一個方法。我們展示了在有監督的情況下使用豐富的數據集(圖片分類)預訓練一個網絡作為輔助性的工作是很有效的,然后采用稀少數據(檢測)去調優定位任務的網絡。我們猜測“有監督的預訓練+特定領域的調優”這一范式對於數據稀少的視覺問題是很有效的。
最后,我們注意到通過使用經典的組合從計算機視覺和深度學習的工具實現這些結果(自底向上的區域候選框和卷積神經網絡)是重要的。而不是違背科學探索的主線,這兩個部分是自然而且必然的結合。
附錄
A. Object proposal transformations
B. Positive vs. negative examples and softmax
C. Bounding-box regression
D. Additional feature visualizations
E. Per-category segmentation results
F. Analysis of cross-dataset redundancy
G. Document changelog
References
[1] B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. TPAMI, 2012.
[2] P. Arbelaez, B. Hariharan, C. Gu, S. Gupta, L. Bourdev, and J. Malik. Semantic segmentation using regions and parts. InCVPR, 2012. 10, 11
[3] P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Ma-lik. Multiscale combinatorial grouping. In CVPR, 2014. 3
[4] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012.
[5] J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts.
[6] D. Ciresan, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosis detection in breast cancer histology images with deep neural networks. In MICCAI, 2013.
[7] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
[8] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
[9] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. FeiFei. ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012).
[10] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. ImageNet: A large-scale hierarchical image database. In CVPR, 2009.
[11] J. Deng, O. Russakovsky, J. Krause, M. Bernstein, A. C. Berg, and L. Fei-Fei. Scalable multi-label annotation. In CHI, 2014.
[12] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition. In ICML, 2014.為CNN性能說明
[13] M. Douze, H. Jegou, H. Sandhawalia, L. Amsaleg, and C. Schmid. Evaluation of gist descriptors for web-scale image search. In Proc. of the ACM International Conference on Image and Video Retrieval, 2009.
[14] I. Endres and D. Hoiem. Category independent object proposals. In ECCV, 2010. 3
[15] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010.
[16] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. TPAMI, 2013.
[17] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. TPAMI, 2010.
[18] S. Fidler, R. Mottaghi, A. Yuille, and R. Urtasun. Bottom-up segmentation for top-down detection. In CVPR, 2013.
[19] K. Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological cybernetics, 36(4):193–202, 1980.
[20] R. Girshick, P. Felzenszwalb, and D. McAllester. Discriminatively trained deformable part models, release 5. http://www.cs.berkeley.edu/rbg/latent-v5/.
[21] C. Gu, J. J. Lim, P. Arbelaez, and J. Malik. Recognition using regions. In CVPR, 2009.這篇文章給本文提供了思路
[22] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik. Semantic contours from inverse detectors. In ICCV, 2011.
[23] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In ECCV. 2012.
[24] Y. Jia. Caffe: An open source convolutional architecture for fast feature embedding.
http://caffe.berkeleyvision.org/, 2013.
[25] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.CNN模型提出的文章,經典論文
[26] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and L. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comp., 1989.
[27] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradientbased learning applied to document recognition. Proc. of the IEEE, 1998.
[28] J. J. Lim, C. L. Zitnick, and P. Dollar. Sketch tokens: A learned mid-level representation for contour and object detection. In CVPR, 2013.
[29] D. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 2004.
[30] A. Oliva and A. Torralba. Modeling the shape of the scene: A holistic representation of the spatial envelope. IJCV, 2001.
[31] X. Ren and D. Ramanan. Histograms of sparse codes for object detection. In CVPR, 2013.
[32] H. A. Rowley, S. Baluja, and T. Kanade. Neural networkbased face detection. TPAMI, 1998.
[33] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Parallel Distributed Processing, 1:318–362, 1986.
[34] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. In ICLR, 2014.
[35] P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In CVPR, 2013.
[36] H. Su, J. Deng, and L. Fei-Fei. Crowdsourcing annotations for visual object detection. In AAAI Technical Report, 4th Human Computation Workshop, 2012.
[37] K. Sung and T. Poggio. Example-based learning for viewbased human face detection. Technical Report A.I. Memo No. 1521, Massachussets Institute of Technology, 1994.
[38] C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013.
[39] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.SS regions proposal 選擇算法
[40] R. Vaillant, C. Monrocq, and Y. LeCun. Original approach for the localisation of objects in images. IEE Proc on Vision, Image, and Signal Processing, 1994.
[41] X. Wang, M. Yang, S. Zhu, and Y. Lin. Regionlets for generic object detection. In ICCV, 2013.
[42] M. Zeiler, G. Taylor, and R. Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In CVPR, 2011.
[43] K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv preprint, arXiv:1409.1556, 2014.