論文網址: https://arxiv.org/abs/1311.2524
RCNN利用深度學習進行目標檢測。
摘要
可以將ImageNet上的進全圖像分類而訓練好的大型卷積神經網絡用到PASCAL的目標檢測中? 答案是肯定的,並且結果是簡單的,可擴展的,相對於可變部件模型(DPM)將平均精度提高了40%以上(在VOC 2007年達到最終的mAP為48%)。我們的網絡框架結合強大的產生自下而上的候選區域的計算機視覺技術和在學習高容量卷積神經網絡中的最新進展。我們稱之為R-CNN:具有CNN特征的區域。同樣的框架也與最先進的語義分割方法相競爭,並表現出其靈活性。除了這些結果,我們進行一系列實驗,提供對網絡通過學習去表示什么的深入理解,揭示一種豐富層次的辨別力和通常語義上有意義的特征。
1.介紹
圖像特征是識別的重要部分。好的特征能立即推動計算機視覺技術的快速發展。可以說,最后一個特征革命是通過引入SIFT和HOG特征來建立的。幾乎所有的現代目標檢測和語義分割系統建立在這些低層次特征中的一個或兩者之上,作為其有效性的證明。
然而,在這過去幾年來,SIFT和HOG現在到了瓶頸時期並且制約了識別的性能這一說法已經形成。該說法是真實的,例如,在廣泛的論文中,試圖通過四個方面的工作來提高檢測准確率:(1)豐富的結構模型;(2)多特征學習;(3)學習基於直方圖的特征;(4)無監督特征學習。
PASCAL視覺目標分類挑戰賽(VOC)作為評估目標檢測器性能的主要基准。獲得2010年和2011年比賽獎項的是通過組合多種類型的特征並廣泛使用來自目標檢測器和場景分類器的集合的場景。使用多個特征提高了至多10%(相對)的平均精度(mAP),伴隨着每個附加特征的回報減少。在2012年的比賽中,系統表現不如上一年。這個停滯期表明目前的方法可能受到可用特征的限制。在這里,我們采取監督特征學習方法。圖1概述了我們的方法,並突出了我們的一些結果。
同時,致力於廣泛的“深度學習”方法的研究者在提高全圖分類效果方面取得了穩步進展。然而,直到最近,這些結果被隔離到諸如CIFAR和MNIST的數據集上,減慢了計算機視覺研究者在其他任務和圖像領域上的使用。
接着,Krizhevsky等人通過在2012年的圖像識別大賽(ILSVRC)上顯示了更低的錯誤率,重新點燃了對卷積神經網絡(CNN)的廣泛興趣。他們的結果的意義在2012年ECCV的ILSVRC研討會期間被大力討論。辯論的核心問題可以提煉為:CNN在ImageNet上的分類結果在多大程度上可泛化為PASCAL VOC比賽的目標檢測結果?在本文中,我們通過使用一個大型卷積神經網絡計算的特征來研究目標檢測,以回答這個重要的科學問題。
CNN已經被用作滑動窗口檢測器至少二十年,通常用在約束目標類別上,例如面部和行人。我們仍然考慮采用滑動窗方法。然而,包含大且密集連接(非卷積)層的CNN的高計算成本,像我們調查的那樣,使得這個方法沒有吸引力。此外,為了檢測具有廣泛變化的縱橫比的物體,通常滑動一組檢測器,具有的不同形狀且調整到不同的目標對象的外觀方式,從而進一步增加了計算成本。
相反,如同Gu等人的論證,我們在“使用區域的識別”范圍內操作。在運行時,我們的方法對輸入圖像生成大約2000個類別獨立的候選區域,使用我們的CNN從每個候選區域中提取出特征向量,然后對每個區域進行類別指定的線性SVM分類。
我們的系統效率驚人。通過使用候選區域,與滑動窗口方法相比,CNN處理的圖像窗口減少了兩個數量級。 我們使用簡單的方法來計算每個候選區域的固定長度的特征向量,而不管區域的形狀如何,允許在所有類別和外觀方式之間共享特征。此外,我們的特征比通常在類似管道中使用的維度低兩個數量級。 唯一的類特定計算是相當小的矩陣矩陣乘積和貪心非極大抑制。
按照這種方法,我們提出,在ImageNet上進行圖像分類訓練的CNN大幅度的優於PASCAL VOC挑戰賽的現有檢測方法。 例如,在VOC 2007上,我們系統的消融版本實現了43%的mAP,而高度調整的可變形部件模型(DPM)為34%。 我們完整的方法將mAP提高到48%。
更簡單的HOG類特征的一個優點是更容易理解它們攜帶的信息(盡管[39]表明,高維HOG特征,我們的可能會不理解)。我們可以深入了解我們的CNN所學習的表示嗎? 也許密切相連層- 有着超過5400萬個參數 - 是關鍵嗎?不是。我們使“CNN”變得遲鈍了,發現只有在檢測准確度適當降低的情況下才能清除其參數驚人的大比例(94%)。也許顏色,HOG使用得很少,是關鍵嗎? 除去顏色只會稍微降低性能。相反,通過隔離網絡中的特定單元(如圖3所示),我們可以看到,CNN學習了一系列豐富的特征,從紅點檢測器到語義對齊的類似單元。了解我們方法的失敗方法同樣重要。 因此,我們從Hoiem等人的分析工具報告檢測結果。
在發展我們方法的技術細節之前,我們注意到它同樣適用於語義分割問題。 經過一些修改,我們還在PASCAL VOC分割任務上達到了最好水平,VOC 2011測試集的平均分割准確率為47.9%。
2.目標檢測
我們的目標檢測系統由三個模塊組成。 第一個生成類別獨立候選區域。這些候選區域定義了我們的檢測器可用的候選邊界框集合。第二個模塊是從各個區域提取固定長度特征向量的大型卷積神經網絡。 第三個模塊是一組類別特定的線性SVM分類器。 在本節中,我們將介紹每個模塊的設計決策,描述其測試時間使用情況,詳細了解其參數的學習方式,並展示在PASCAL VOC 2010-12上的結果。
2.1 模塊設計
候選區域 各種最近的論文提供了生成類別獨立的候選區域的方法。 這些包括objectness,選擇性搜索,類別獨立候選目標,約束參數最小化(CPMC),以及基於超度量輪廓圖合並超像素的方法。由於在PASCAL檢測任務上的強大的性能,我們使用選擇性搜索。
特征提取 我們使用我們自己實現的Krizhevsky等人的CNN,從每個候選區域中提取4096維特征向量,我們建立在開源cuda-convnet代碼之上。特征是通過前向傳播通過五個卷積層和兩個全連接層減去平均的224X224 RGB圖像來計算的。 我們建議讀者參考[26]了解更多的網絡架構細節。 第3節中的消融研究顯示了最后三層每層特征的性能如何變化。
為了計算一個候選區域的特征,我們必須首先將該區域中的圖像數據轉換為與我們的CNN兼容的形式。網絡結構需要輸入固定的224X224像素尺寸大小。在我們任意形狀區域的許多可能的變換中,我們選擇最簡單的。不管候選區域的大小或寬高比如何,我們將圍繞其邊界框中的所有像素到所需的尺寸大小。這導致每個區域的固定長度特征向量。 圖2顯示了圍繞訓練區域的隨機抽樣。失真比人們可能想象的先驗小。
2.2 結論
我們在一張測試圖像上進行選擇性搜索,以提取大約2000個候選區域(我們在所有實驗中使用選擇性搜索的“快速模式”)。我們把每一個候選區域都圍成要求的形狀大小,並通過CNN向前傳播,以便從所需的層讀取特征圖。然后,對於每個類,我們使用針對該類訓練的SVM來對每個提取的特征圖進行評分。給定圖像中的所有得分區域,我們應用貪心非極大抑制(對於每個類別,獨立地)排除區域,如果它具有與交叉聯合(IoU)重疊有着較高得分的非抑制區域大於學習閾值 (所有實驗中為0.3)。
運行時間分析 兩個關鍵屬性使結論非常高效。首先,所有類別共享所有CNN參數。 第二,與其他常見方法相比,由CNN計算的特征向量是低維的,例如具有視覺詞袋模型編碼的空間金字塔。例如,UVA檢測系統中使用的特征比我們(360k對4k維)大兩個數量級。
這種共享的結果是計算候選區域和特征(在GPU上的13s /圖像或在CPU上的53s /圖像)的時間花費平攤到在所有類別上。 唯一的指定類計算是特征與SVM權重和非最大抑制之間的點積。在實踐中,一幅圖像的所有點積都被分批成為單個矩陣矩陣乘積。特征矩陣通常為2000x4096,SVM權重矩陣為4096xN,其中N為類數。
雖然不是很明顯,我們的方法應該容易地擴展到成千上萬的對象類,而不使用近似的技術,如散列法。 即使有100k類,在現代多核CPU上進行矩陣乘法只需10秒。 此外,這種效率不僅僅是使用候選區域和共享特征的結果。 由於其高維度特征,UVA系統的速度將會降低兩個數量級,而需要134GB的內存才能存儲100k線性預測器,相比之下,我們的低維特性只需1.5GB。
將我們的方法與Dean等人最近的工作使用DPM和散列的可擴展檢測進行對比也是有趣的。 他們在VOC 2007上報告了大概16%的mAP,每個圖像的運行時間為5分鍾,當引入10k干擾類時。 通過我們的方法,10k個檢測器可以在CPU上運行大約一分鍾,並且由於沒有近似值,mAP將保持在48%。
2.3 訓練
CNN 預訓練 我們使用具有圖像水平的注釋(即無邊框標簽)的大型輔助數據集(ILSVRC 2012)來“預訓練”CNN。 除了兩個小的變化(簡化實現)之外,我們緊密地遵循了[26]的方法。我們分享了在DeCAF技術報告中詳細介紹的相同的實現和訓練流程,並向讀者介紹細節。簡而言之,我們的CNN幾乎符合[26]的表現,在ILSVRC 2012驗證集上獲得了排名第一的錯誤率僅高出2.2個百分點。這種差異可能是由於我們的簡化。
CNN 微調 為了使CNN適應新的任務(檢測)和新的領域(圍繞的PASCAL窗口),我們只使用PASCAL的包圍候選區域繼續訓練CNN參數。在預訓練期間,我們將學習率以10的倍率降低三次。然而,最后的學習率並沒有取得什么進展。為了進行微調,我們開始了隨機梯度下降(SGD),學習率是初始預訓練率的0.01倍。 這允許微調進行,而不會使初始化崩潰。我們對待所有候選區域以≥ 0.5 IoU與真實標定框重疊,作為該標定框類的正樣本,其余作為反樣本。在每次SGD迭代中,我們采樣兩張訓練圖片並且通過從每個圖像中的大約2000個中抽取64個候選區域來構建大小為128的小塊。由於目標對象很少見,所以我們發現有必要對采樣進行偏移平均每個小塊的1/4是正樣本。
目標類別分類器 考慮訓練二分類器來檢測汽車。很明顯,緊緊圍繞汽車的圖像區域應該是一個正樣本。同樣地,很顯然,與汽車無關的背景區域應該是一個負樣本。 較不清楚的是如何標注部分重疊汽車的區域。我們用IoU重疊閾值來解決這個問題,小於閾值的區域被定義為反樣本。通過網格搜索{0,0.1,...,0.5}選擇重疊閾值0.3。我們發現,仔細選擇這一閾值至關重要。將其設置為0.5,如[36]所示,將使得mAP降低5點。同樣,將其設置為0會將mAP降低4點。正樣本被簡單地定義為每個類的真實標定框。
一旦提取了特征並應用了訓練標簽,我們可以優化每個類的一個線性SVM。 由於訓練數據太大而不適合存儲,所以我們采用了standard hard negtive mining method。我們發現該方法迅速收斂,實際上在所有圖像中只有單個通道,mAP才會停止增長。訓練是快速的,給定預先計算的特征向量,我們存儲在磁盤上。所有20個PASCAL目標檢測SVMs的訓練時間(5k圖像)在單個核上需要大約1.5小時。在 GPU上每個區域的特征計算需要大約5ms。
2.4 在PASCAL VOC 2010-12上的結果
根據PASCAL“最佳實踐”指南,我們對VOC 2007數據集進行了所有設計決策。對於VOC 2010-12數據集的最終結果,我們對VOC 2012訓練的CNN進行了微調(以避免在驗證集上過擬合)。然后,我們在VOC 2012訓練中訓練了我們的檢測SVM,並將測試結果提交給評估服務器一次。
表1顯示了VOC 2010的完整結果。我們將我們的方法與三個強基准進行比較,但不包括使用背景重排的系統的結果。這樣的回顧提高了所有的方法,並且與本文的重點是正交的(為了清楚起見,我們分離出個別的窗口,所以沒有使用背景信息)。最相似的對比是UVA系統來自Uijlings等人[36],因為我們的系統使用相同的候選區域算法。為了對區域進行分類,他們的方法構建了一個四級空間金字塔,並用密集采樣的SIFT,擴展的對數SIFT和RGB-SIFT算子填充,每個矢量都用4000字的碼本進行量化。使用直方圖交點內核SVM進行分類。與他們的多特征相比,非線性內核SVM方法,我們實現了mAP的大幅度改進,從35.1%到43.5%的mAP,同時也快得多。我們的方法在VOC 2011/12測試中達到類似的性能,mAP為43.2%。
3. 可視化,消融和錯誤模式
CNN在實踐中運作良好,但是它學到了什么,其設計的哪些方面對於其成功至關重要,以及它如何失敗?
3.1 可視化學習特征
第一層濾波器可以直接可視化並且易於理解。它們捕獲定向的邊緣和對立的顏色。理解后續層次更具挑戰性。Zeiler和Fergus在[40]中提出了一種有吸引力的去卷積方法。 我們提出一個簡單的(和補充的)非參數方法,直接顯示網絡學到的內容。
這個想法是在網絡中列出一個特定的單位(人造“神經元”),並將其視為自己的目標檢測器。也就是說,我們在大量的延伸候選區域(約1000萬)中計算神經元的激活函數,將候選區域從最高到最低的響應進行排序,執行非極大抑制(在每個圖像內),然后顯示最高得分區域。我們的方法讓所選單元“自己說話”,通過准確地顯示它觸發的輸入。 因為我們避免平均,我們有機會看到多種視覺模式,並深入了解單元計算的不變性。
我們可以從pool5層中可視化單元,這是網絡的第五個maxpolled輸出層和最終卷積層。pool5層的特征圖是6x6x256 = 9216維。忽略邊界效應,每個pool5單元在原始227x227像素輸入中具有195x195像素的接受域。 一個中央pool5單元具有幾乎全局的視野,而靠近邊緣的則有一個小得多的剪切支撐。我們選擇了這個層,因為它是最后一個層次,它的單元具有緊湊的接收域,使得更容易顯示圖像的哪個部分負責激活。 另外,我們對下一層fc6學習的表示獲得了一些直觀理解,因為它需要pool5激活的多個加權組合。
圖3顯示了我們在VOC 2007訓練中進行了微調的來自CNN的六個單元的前16個激活。 前兩個單元被選中,因為它們對應於貓SVM中的大的正負權重(在pool5中訓練)。第一種是選擇貓臉,而第二種是選擇其他動物面孔(主要是狗)。我們還可以看出羊和人的單元。最后兩行表示更通用的單元; 一個在一定寬度的對角線上觸發,另一個在紅色斑點上觸發。這些可視化表明了pool5特征的豐富性並暗示其中的多樣性,單位范圍從特定的動物面孔到更通用的形狀和紋理。 隨后的全連接層具有對這些豐富特征的大量組合進行建模的能力。額外的可視化包括在附錄,圖6中。
3.2 消融研究
性能逐層,無需微調。為了了解哪些層對於檢測性能至關重要,我們在VOC 2007數據集上分析了每個CNN最后三層的結果。第3.1節簡要描述了池化層5。最后兩層總結如下。
fc6層全連接到pool5層。 為了計算特征,它通過pool5層特征圖(重構為9216維向量)乘以4096x9216的權重矩陣和然后添加一個偏置向量。 該中間矢量是分量半波整流(即x<- max(0,x))。
fc7層是網絡的最后一層。 它通過將由fc6層計算的特征乘以4096x4096權重矩陣,並且同樣添加偏置矢量並施加半波整流。
我們首先來看看CNN的結果,在PASCAL上沒有進行微調,即所有的CNN參數都僅在ILSVRC 2012上進行了預處理。分析性能逐層圖(表2第1-3行)顯示,fc7層的特征與fc6層的特征相比具有很少或沒有優勢。 這意味着可以刪除CNN參數的29%或約1680萬,而不會降低mAP。更令人驚訝的是,刪除fc7和fc6都能產生相當好的結果,即使僅使用6%的CNN參數來計算pool5特征。CNN的大部分表示能力來自卷積層,而不是來自全連接層。這個發現表明在計算任意大小圖像的HOG意義上的密集特征圖的潛在實用性,通過僅使用CNN的卷積層。這種表示將能夠在pool5層豐富的特征之上使用包括DPM的滑動窗口檢測器。
顏色 為了了解我們的系統從顏色中獲益多少(與基於HOG的方法相比,這在很大程度上忽視它),我們在灰度級空間中測試了我們的預訓練的CNN。從灰度版本的PASCAL圖像上對fc6層特征進行SVMs的訓練,並對灰度圖像進行測試,將VOC 2007測試中的mAP從43.4%降低到40.1%。
性能逐層,微調 現在,我們在對VOC 2007訓練的參數進行了微調后,再來看看CNN的結果。 改進效果是顯着的。微調使mAP提高4.6點至48.0%。 對於fc6和fc7,微調的提升比pool5大得多。 這可能表明,從ImageNet中學習的豐富的pool5特征對於PASCAL來說已經足夠了,大多數改進是通過學習如何在fc6中進行最優組合而獲得的。
與近期特征學習方法的比較 在PASCAL檢測中已經嘗試了相對較少的特征學習方法。我們來看兩種最新的基於可變形零件模型(DPM)的方法。作為參考,我們還包括標准的基於HOG的DPM的結果。
第一個DPM特征學習方法,DPM ST,增加了具有“素描令牌”概率直方圖的HOG特征。直觀上,素描令牌是通過圖像塊中心的輪廓的緊密分布。素描令牌概率是通過一個隨機森林在每個像素點上進行計算的,被訓練為將35x35像素塊分類成150個素描標記或背景之一。
第二種方法,DPM HSC,使用稀疏編碼的直方圖代替HOG。 為了計算HSC,使用100個7x7像素的(灰度)原子學習詞典在每個像素處求解稀疏編碼激活。所得到的激活以三種方式(全部和兩個半波)進行調整,空間池化,單元l2歸一化,然后進行功率變換(x<- sign(x)|x|a)。
我們所有的CNN方法都超過三個DPM基線,包括使用特征學習的兩個。 與最新版本相比DPM僅使用HOG功能,我們的mAP超過14點:48.0%vs 33.7% - 相對提高42%。 HOG和素描令牌的組合在單獨的HOG下獲得2.5個mAP點,而HSC在HOG上提高了4點的MAP(與其內部的單獨的DPM基線相比,兩者均使用非公開DPM的實現不如開源版本)。 這些方法分別達到29.1%和34.3%的mAPs。
3.3 檢測誤差分析
我們應用了Hoiem等人的優秀檢測分析工具,為了揭示我們的方法的錯誤方式,了解微調如何改變他們,並且看看我們的錯誤類型與DPM的比較。 分析工具的完整總結超出了本文的范圍,我們鼓勵讀者參考[23]了解一些更精細的細節(如“歸一化AP”)。由於分析最好在相關圖譜的背景下被吸收,所以我們在圖4和圖5的標題中提出討論。
4. 語義分割
區域分類是語義分割的標准技術,使我們能夠輕松地將我們的CNN應用於PASCAL VOC分割賽事。為了促進與當前領先的語義分割系統(稱為O2P為“二階池化”)進行直接比較,我們在他們的開源框架內工作。O2P使用CPMC為每個圖像生成150個候選區域,使用支持向量回歸(SVR)預測每個區域的每個類別的質量。 他們的方法的高性能是由於CPMC區域的質量和多種功能類型(SIFT和LBP的豐富變體)的強大的二階池化。 我們還注意到,Farabet等最近在使用CNN作為每個像素的分類器的幾個密集場景標記數據集(不包括PASCAL)上展示了良好的結果。
我們遵循[2,5]並擴展PASCAL分割訓練集,以包括Hariharan等提供的額外注釋。設計決策和超參數在VOC 2011驗證集上被交叉驗證。 最終測試結果僅評估一次。
CNN特征進行細分 我們評估了CPMC區域計算特征的三種策略,所有這些策略都是通過將該區域的矩形窗口包圍在到224x224來開始的。 第一個策略(full)忽略了該區域的形狀,並直接在包圍的窗口上計算CNN特征,就像我們檢測到的那樣。然而,這些特征忽略該區域的非矩形形狀。 兩個區域可能具有非常相似的邊界框,同時具有非常小的重疊。 因此,第二種策略(fg)僅在區域的前景模版上計算CNN特征。 我們用平均輸入替換背景,使平均值減去后的背景區域為零。 第三個策略(full + fg)簡單地連接full和fg特征; 我們的實驗驗證了它們的補充。
VOC 2011的結果 表3顯示了與O2P相比,VOC 2011驗證集的結果總結(參見附錄中的表5,以獲得完整的每個類別的結果)。在每個特征計算策略中,fc6層始終優於fc7層,下面的討論參考fc6層特征。fg策略比full略勝一籌,表明模板區域的形狀提供更強的信號,匹配直覺。 然而,full + fg的平均精度達到47.9%,我們的最佳結果為4.2%(略遜於O2P),表明即使給出了fg特征,由full特征提供的背景提供了高度的信息。值得注意的是,在我們的full+ fg特征上訓練20個SVR需要大約一個小時在單個核上,而在O2P特征上訓練需10個小時。
在表4中,我們展示了VOC 2011測試集的結果,將我們的最佳表現方法fc6(full + fg)與兩個強基准進行了比較。 我們的方法在21個類別中的11個中實現了最高的分割准確度,並且最大的總分割准確率為47.9%,在各個類別之間平均(但可能與任何合理的誤差范圍內的O2P結果有關)。更好的表現可以通過微調實現。
5. 討論
利用大型輔助數據集是我們方法成功的關鍵。 為什么不給更多的訓練數據到其他方法? 一個問題是從不同領域的數據中受益,這是不尋常的,並且被標記為不同的任務。例如,訓練PASCAL的DPM需要PASCAL類別的邊界框注釋。此外,[42]表明即使有更多數據可用,DPM也不容易從中受益。 第二個問題是許多方法缺乏大量的共享參數來預訓練。 例如,一個詞袋模型的方法不太可能受益於在ImageNet上訓練其碼本。這些問題在將來可能會被克服,但它們是自己的研究工作。
本文證明了一個強大的實驗說明:大型卷積神經網絡在利用“大視覺數據”來學習豐富的特征層次是非常有效的,這將在黃金標准PASCAL VOC挑戰賽中產生以前無法實現的目標檢測結果。這不是一個小小的壯舉。從檢測器的優勢來看,ILSVRC 2012的標簽很弱,甚至缺少關鍵視覺概念(如人物)的注釋。CNN有能力輕松將這些數據轉化為最佳性能的檢測結果是真正令人興奮的。我們通過使用計算機視覺和深度學習的經典工具(自下而上的候選區域和卷積神經網絡)的組合來實現這些結果是重要的。 這兩者不是對立的,而是自然而且不可避免的伙伴。
A. 附加特征可視化
圖6顯示了六個pool5層單元的附加可視化。對於每個單元,我們展示了96個候選區域,最大限度地激發了該單元在全部約1000萬個區域的所有VOC 2007測試集中。
我們在6x6x256維Pool5特征圖中(y,x,channel)位置來標記每個單元。在每一個通道,CNN計算與輸入區域完全相同的函數,(y,x)位置僅改變接收場。從左上角到右下角,我們看到有選擇性的單元:綠色植物,貓臉,人臉,波紋,文字和條紋在各種方向。
B. 每個類別分割結果
在表5中,除了O2P方法之外,我們還顯示了我們的六種分割方法中在VOC 2011上的每類分類准確度。 這些結果顯示了20個單獨的PASCAL類以及背景類中的哪一種方法是最強的。
C. 交叉數據集冗余分析
在輔助數據集上進行訓練時的一個問題是它與測試集之間可能存在冗余。即使目標檢測和全圖像分類的任務大不相同,使得這樣的交叉集冗余更加令人擔憂,我們仍然進行了一個徹底的調查,量化了在ILSVRC 2012訓練和驗證集中PASCAL測試圖像的包含程度。我們的研究結果對於有興趣使用ILSVRC 2012作為對PASCAL圖像分類任務的訓練數據的研究者可能有用。
我們對重復(和非重復)圖像進行了兩次檢查。第一次測試是基於flickr圖像IDs的准確匹配,這是包含在VOC 2007的測試注釋總(這些ID被有意保留作為后續的PASCAL測試集)。所有的PASCAL圖像,以及約一半的ILSVRC,都是從flickr.com收集的。該檢查在4952個匹配中出現了31(0.63%)。
第二個檢查使用GIST算子匹配,如[13]所示,在大型(> 100萬)圖像集合中的近似重復圖像檢測中具有出色的性能。 按照[13],我們計算了GIST算子,在所有ILSVRC 2012訓練和PASCAL 2007測試圖像的圍繞32x32像素版本。歐幾里德GIST算子的最近鄰匹配揭示了38個近似重復的圖像(包括由flickr ID匹配發現的所有31個)。這些比賽在JPEG壓縮級別和分辨率方面略有不同,而且裁剪程度也較小。這些研究結果表明,重疊非常小,小於1%。 對於VOC 2012,因為flickr ID不可用,所以我們僅使用GIST匹配方法。 根據GIST匹配,VOC 2012測試圖像中有1.5%在ILSVRC 2012訓練。VOC 2012略高可能是由於收集了兩個數據集時間比VOC 2007和ILSVRC 2012更緊密。