PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS
ABSTRACT
最近,建立在卷積神經網絡(CNN)上的圖像表征已經被證明可以為圖像搜索提供有效的描述符,其性能優於作為短向量表征的前CNN特征。然而,這種模型與幾何感知重排序方法並不兼容,在某些特定對象檢索基准上,仍然優於傳統的圖像搜索系統,這些系統依賴於精確的描述符匹配、幾何重排序或查詢擴展。這項工作回顧了兩個檢索階段,即初始搜索和重新排序,使用從CNN派生的相同原始信息。我們構建了緊湊的特征向量來編碼多個圖像區域,而不需要向網絡提供多個輸入。此外,我們擴展了積分圖像(integral images)來處理卷積層激活上的max-pooling,從而允許我們有效地定位匹配的對象。最終得到的邊界框將用於圖像重新排序。因此,本文顯著改進了現有的基於CNN的識別管道:我們首次報告了在具有挑戰性的Oxford5k和Paris6k數據集中與傳統方法競爭的結果。
1 INTRODUCTION
基於內容的圖像檢索在過去十年中得到了持續的關注,導致了諸如可視化實例檢索等任務的成熟系統。目前最先進的方法源於Sivic和Zisserman(2003)的Bag-of-Words模型,其成功主要歸功於局部不變特征(Lowe, 2004)和大型可視碼本(Philbin et al., 2007)。這些方法通常包括一個初始過濾階段,其中所有數據庫圖像根據與查詢圖像的相似性進行排序,以及第二個重新排序階段,這個階段細化排名最高的元素的搜索結果。過濾階段是在幾個方面改進,如結合weak geometric information (Je ́gou et al., 2010),采用局部描述符的緊湊近似 (Je ́gou et al., 2010),,或學習聰明的碼本(Mikulik et al ., 2013;Avrithis & Kalantidis, 2012)。在這種情況下,局部描述符被單獨匹配,選擇性匹配函數(Tolias et al., 2015;Tao et al., 2014)用來提高搜索質量。幾何匹配模型(Philbin et al., 2007; Avrithis & Tolias, 2014) 是典型的以成對的方式應用在short-list圖像的重新排名階段的。查詢擴展方法(query expansion)顯著提高了性能(Chum et al., 2011),但代價是更大的查詢時間。
卷積神經網絡(CNN)取得的最新進展以及使用中間層激活作為特征向量(Donahue et al., 2013)為表征創造了機會,這些表征不僅在分類任務中,而且在圖像或特定對象檢索中具有競爭性。一些作品已經研究了這個研究方向,例如基於全連接 (Babenko et al., 2014; Gong et al., 2014) 或基於卷積層(Razavian et al., 2014b; Azizpour et al., 2014; Babenko & Lempitsky, 2015)的全局或局部表征。基於CNN特性的性能迅速提升到了可競爭的程度,甚至優於了聚合局部特征的pre-CNN研究(Je ́gou et al., 2012; Radenovic ́ et al., 2015)。特別是,卷積層的激活加上全局max-pooling操作(Azizpour et al., 2014)產生了具有高度競爭性的緊湊圖像表征。唯一限制是,這些方法不兼容涉及最后的重新排序階段的幾何感知模型。
這項工作重新使用基於CNN的特性進行過濾和重新排序。我們做了以下三點貢獻。
- 首先,我們提出了一種源自卷積層激活的緊湊的圖像表征,它編碼多個圖像區域,而不需要將多個輸入重新輸入到網絡,這是基於最近的Fast-RCNN (Girshick, 2015)和Faster-RCNN (Ren et al.,2015)方法得到的想法,但這里的目標是特定的對象檢索。基礎原始表征在所有階段(初始檢索和重新排序)中使用。
- 其次,我們采用generalized mean (Dolla ́r et al., 2009) 使得帶有max-pooling的積分圖像(integral images)能夠使用。在CNN激活的2D maps中,這種有效的方法被直接用於特定對象定位(參見圖1)。
- 第三,我們的定位方法用於圖像重新排序,並使我們定義了一個簡單而有效的查詢擴展(query expansion)方法。
這些方法是互補的,當它們結合在一起時,第一次產生了一個能與 Oxford和 Paris building基准競爭的系統,該系統采用了最先進的基於局部特征的重新排名方法。我們的方法比以往基於CNN的方法有很大的優勢,並且在實踐中更加高效
2 RELATED WORK
CNN based representation. 一個典型的CNN包括幾個卷積層,然后是全連接層,最后是一個softmax層,產生一個訓練類的分布。可以考慮使用中間層的激活來訓練分類器,而不是使用這種固有的分類器。特別是,全連接層的激活被證明是非常有效的,並且能夠適應不同的領域(Oquab et al., 2014),如場景識別(Donahue et al., 2013;Sicre & Jurie, 2015),目標檢測(Iandola et al., 2014),語義分割(Girshick et al.,2014)等。在圖像檢索中,采用全連接層作為全局描述符,然后進行降維(Babenko et al., 2014)。它們也被用作區域描述符,與數據庫描述符(Razavian et al., 2014a)進行比較或以VLAD方式聚合(Gong et al.,2014)。
最近的研究從卷積層的激活中獲得了視覺表征。這可以通過stacking激活(Girshick et al.,2014)或對每個特征通道執行空間max-pooling(Azizpour et al., 2014)或sum-pooling(Babenko & Lempitsky, 2015)來實現。根據Azizpour等人(2014)的研究,這種表征為遠離源(訓練)數據的測試數據提供了更好的泛化特性。值得注意的是,在特定對象或場景檢索中,使用卷積層而不是全連接層可以獲得更高的性能。Babenko和Lempitsky(2015)最近的工作表明,當圖像表征被白化時,sum-pooling比max-pooling表現更好。最后,Kalantidis等人(2015)提出了空間和特征通道加權方法,可以顯著提高性能。他們的方法是對我們提出的過濾和重新排序階段的補充。
最近的例子利用來自全連接層的信息來執行通用對象檢測(Iandola et al., 2014; Papandreou et al., 2014)。這樣的方法對於為大規模圖像檢索重新排序的目的來說是禁止。因為它們的計算量大,固有特征對特定目標的匹配不是最優的。
Localization. 近年來,滑動窗口原理在許多目標定位方法中獲得了相當成功的應用。由於可能存在大量窗口,窮舉搜索的代價非常高。然而,積分圖像(integral images)(Viola & Jones, 2001)為單個區域的評估提供了恆定成本的解決方案。這種吸引人的方法適用於通過sum-pooling操作構造的特征向量。
Lampert等人(2009)利用branch-and-bound搜索來避免窮舉搜索,利用 Efficient Subwindow Search(ESS)給出了全局最優解。他們的工作使用了積分圖像(integral images),這也被用於后期ESS的改進(An et al., 2009)。An et al.(2009)將定位問題形式化為最大子陣列問題,與Chen et al.(2013)類似,他們使用了Bentley算法(Bentley, 1999)。積分圖像基於VLAD或Fisher vector(Van de Sande et al., 2014)來幫助多個區域候選(Uijlings et al.,2013)的評估。由於給定表征中固有的sum-pooling操作,上述所有方法都利用了積分圖像。在本文中,我們擴展了積分圖像,在CNN激活maps上執行max-pooling,這被證明是描述區域(相對於整個圖像)的更好選擇。
在圖像檢索中也提出了幾種目標定位技術。Lampert(2009)提出了一種在區域和圖像之間交替的兩層branch-and-bound方法。積分圖像大大加快了Lin和Brandt(2010)通過Bag-of-Words進行定位的工作。總體思想與我們的工作有相似之處。然而,我們的區別在於使用帶有max-pooling的基於CNN的表征。一些方法(Tao et al.,2014;Shen et al.,2014)將局部特征單獨索引用於定位。在我們的例子中,定位方法建立在一個緊湊的表征之上,最初用於過濾階段。最后,Arandjelovic和Zisserman(2013)提出了一種基於VLAD的定位策略,計算多個圖像區域的相似度,通過回歸得到更精確的定位。
3 BACKGROUND
我們考慮一個預先訓練好的CNN,拋棄所有全連接層。給定一個大小為WI×HI的輸入圖像I,卷積層的激活(響應)形成W×H×K維的三維張量,其中K為輸出特征通道的數量,即多維濾波器。空間分辨率W * H取決於網絡架構、被檢測層和輸入圖像的分辨率。我們假設在最后一步使用了Rectified Linear Units(ReLU),以保證所有的元素都是非負的。
我們將這個三維響應張量表示為一組二維特征通道響應X = {Xi}, i = 1…K, Xi是二維張量,表示第i特征通道在有效空間位置Ω的響應,Xi(p)即是在一個特定的位置p的響應。因此,在所有位置(Azizpour et al ., 2014)由空間max-pooling構造的特征向量表示為:
(即從第i個通道的所有位置的特征值中選擇max的值作為該i通道的輸出,最后得到一個k維的向量fΩ)
Maximum activations of convolutions (MAC). 兩幅圖像將使用上述生成的k維向量的余弦相似度進行比較。由於max-pooling操作在一個大小為W×H的區域,這種表征(稱為MAC)不編碼激活的位置(不像全連接層的激活)。它編碼每一個卷積過濾器的最大“局部”響應,因此具有轉換不變性。在下面的所有內容中,我們考慮研究網路的最后卷積層。
圖2顯示了對圖像相似度貢獻最大的patches。由於結構的重復,它們要么對應於同一物體部分,要么對應於相似的部分。通過簡單地從有着任意分辨率或寬高比的輸入圖像中減去平均像素值(Iandola et al., 2014)去抽取MAC。不需要剪切圖像或改變圖像寬高比(Azizpour et al., 2014)。
在單個單元上執行的max-pooling操作為結果表征提供了轉換不變性。這與從要求對象對齊的全連接層派生的表征形成了對比。在我們的例子中,由於使用的是訓練數據,我們假設對象是向上的(即正向放好的,不是亂轉的),我們簡單地受益於CNN提供的旋轉容忍度。同樣也代表了對尺度變化的容忍度。
4 ENCODING REGIONS INTO SHORT VECTORS
本節描述我們如何利用CNN卷積層的激活來推導圖像區域的表征。對區域向量進行聚合,生成用於圖像檢索過濾階段的短簽名。
Region feature vector. 描述在第3節的特征向量fΩ是整張圖I的表征。現在,我們考慮一個矩形區域,並定義區域特征向量為:
其中是考慮區域第i個通道的最大激活值。
對於考慮的特征映射(而不是輸入圖像平面),區域R被定義在所有有效的位置空間Ω上。大小為1的區域對應於在特定位置由單個激活值組成的特征向量。我們現在能夠構建多個區域的表征(即將輸出的W*H*C特征中每個channels的同個區域位置使用max-pooling,最后也能得到一個1*1*C的區域表征),而無需向CNN重新輸入額外的輸入,類似於最近的RNN變體(Ren et al.,2015;Girshick, 2015),大大降低了加工成本。
現在假設一個線性映射,由給定區域R映射回到原始圖像。由於接收域較大,所提出的區域向量捕獲的圖像區域比back-projected的圖像區域大。類似的效果發生在對象檢測上下文中(Iandola et al., 2014),其中以滑動窗口的方式應用了全連接層。
R-MAC: regional maximum activation of convolutions.我們現在考慮一個由R個不同大小的區域組成的集合。區域的結構與Razavian等人(2014b)提出的相似,但我們在CNN響應映射(即指定卷積層的輸出)上定義它們,而不是在原始圖像上。我們在L個不同尺度上采樣正方形區域。在最大尺度(l = 1)下,確定區域大小盡可能大,即其高度和寬度都等於min(W,H)。區域采樣均勻,使連續區域之間的重疊盡可能接近40%。注意原始圖像的寬高比對我們提取的m個區域有影響(只有輸入圖像為正方形時才有1個區域)。在其他尺度l中,我們均勻采樣l×(l + m−1)區域,寬度為2min (W, H)/(l + 1),如圖3(左)所示。
(從左邊的圖可見,假設響應映射大小為W*H=5*6,當l=1時,區域寬度為2min (W, H)/(l + 1) =10/2= 5,意思是分出兩份,一個區域占兩份,大小是5,所以第一個的灰色區域為5*5的正方形;當l=2時,區域寬度為2min (W, H)/(l + 1) =10/3,意思是分出3份來,一個區域占兩份,大小是10/3,所以區域大小為中間圖的樣子;當l=3時,區域寬度為2min (W, H)/(l + 1) = 10/4=2.5,意思是分出4份來,一個區域占兩份,大小是10/4)
然后我們計算每個區域相關的特征向量,並使用l2歸一化(l2-normalization)、PCA-whitening(Je ́gou & Chum, 2012) 和l2歸一化三步進行后處理。我們將收集到的區域特征向量相加,最后進行l2歸一化處理,得到一個單一的圖像向量。這種選擇使維數保持在較低的水平,與特征通道的數量相等。然而,在我們的實驗中,我們表明,所產生的表征,即R-MAC,提供了一個比對應的有着相同維數的MAC顯著的性能。注意,區域向量的集合可以看作是一個簡單的核,它可以交叉匹配所有可能的區域,包括不同尺度的區域。
5 OBJECT LOCALIZATION
在本節中,我們提出了一個擴展的積分圖像,以在一個二維特征通道響應映射的集合X上執行近似的max-pooling操作,這為我們的CNN的方法提供了一個粗糙但有效的定位。
Approximate integral max-pooling. 注意到非負的響應Xi,利用generalized mean(Dollár et al ., 2009)去近似關聯一個給定區域R的特征值fR,i,估計值如下:
(即由generalized mean方法近似得到max-pooling的更高效的計算方法,這個得到的和可以由積分圖像的4項之和 (Viola & Jones, 2001)簡單得到,這就是這里使用積分圖像的用處,使得區域特征向量的max-pooling能夠快速計算)
圖3(中)顯示了在幾個圖像區域上估計的平均近似誤差。我們將近似誤差報告為對應響應集大小的函數,在該響應集上計算最大值。不同響應集的大小是使用的所有可能區域的一個結果。指數α越高將能導致更好的近似值,而應用於更多的元素會使近似不那么精確。
通過這種方式來近似最大值,我們可以使用積分圖像(Viola & Jones, 2001)去近似定義在任何矩形區域R的區域特征向量fR 。對於每個通道,我們構建二維張量的積分圖像,二維張量在位置p的值等於 。然后,方程(3)的和可以由4項之和 (Viola & Jones, 2001)簡單得到。這使得我們能夠高效地計算多個區域的max-pooling,從而構建相應的特征向量。這與許多區域的顯式構造形成了對比,這些區域的表征來自於全連接的層,因為需要調整大小/裁剪和重新向網絡輸入每個區域,所以在顯式構造中禁止使用這種方法。
我們通過測量精確向量和近似向量之間的余弦相似度來評估近似質量。這種相似性的分布如圖3(右)所示,並對隨機選取的10幅圖像的所有可能區域進行測量。所提出的近似值即使對於中等的α值得到的效果也是非常精確的。在我們所有的實驗中,我們都設置了α= 10。
Window detection. 現在讓我們假設有另一個描述單個對象的圖像Q,即通過定義感興趣對象的邊界框進行剪裁。我們用q表示對應的MAC特征向量。在圖像I的CNN激活X上定義的與q相似度最大的2D區域計算為 :
(即將所有得到的區域特征向量R-MAC和整個卷積層輸出的特征向量MAC根據等式4計算相似度,從中選出相似度最高的區域特征向量,那么其對應的區域應該就能夠很好地定位圖像Q中感興趣對象的邊界框)
最大化相似度的區域被映射回原始圖像I,其有着
像素的精度,提供一個描繪Q中對象的粗糙定位。對應的相似度並不把圖像I的所有可視內容都考慮進來,因此不受背景雜波的影響。由於可能區域的數量在O(W2H2)區間內,通過窮盡搜索蠻力檢測最優區域的代價較大。在初步測試中,我們評估了基於branch and bound搜索的全局最優解,如ESS (Lampert et al., 2009)中一樣。對於我們的表征,必要的邊界是不重要的。在我們的例子中,搜索速度沒有明顯加快:最大值不夠明顯,需要考慮大量的區域,而維護優先級隊列的開銷很高。
AML: approximate max-pooling localization.相反,我們限制評估區域的數量,並用簡單啟發式(simple heuristics)方法在局部優化最佳區域。使用搜索步長t 來均勻采樣候選區域。丟棄寬高比大於查詢區域s倍的區域。以坐標下降的方式細化最佳區域的參數,允許最大3個單位的變化。細化過程要重復5次。實驗表明,檢測區域與最優區域的重疊程度較高。(近似實現定位的方法)
6 RETRIEVAL, LOCALIZATION AND RE-RANKING
Initial retrieval. 對所有數據庫圖像計算MAC或R-MAC特征向量。同樣,在查詢時我們對查詢圖像進行處理並提取相應的特征向量。在過濾階段,我們直接評估查詢和所有數據庫向量之間的余弦相似度。因此,我們根據MAC或R-MAC向量的相似性得到初始排序。
Re-ranking. 我們考慮了第二次重新排序階段,就像在具有局部特征的空間驗證(Philbin et al., 2007)中通常執行的那樣。將考慮N個top圖像的short-list,並將AML(如第5節所述,即定位)應用於查詢和數據庫圖像對上。注意,查詢圖像現在由MAC向量表示,因為它在AML中使用,而數據庫圖像由X表示。對於每一張重新排序的圖像,我們獲得一個由與查詢圖像相似度最大化的區域給出的分數。這種相似性用於對short-list的元素重新排序。此外,還提供了查詢對象的粗略定位。
Remarks: 在過濾階段,可以使用白化MAC(在8節中描述白化)或R-MAC,而定位過程采用l2-normalized MAC的相似性。然而,一旦查詢對象被定位,那么,根據選擇的過濾方法,查詢圖像和檢測區域的相似度將通過白化MAC或R-MAC計算出來。這個相似度分數用於執行重新排序。所需的表征僅在查詢時間為檢測區域構造,並通過積分圖像有效地獲取。
Query expansion (QE). 重新排名會得到排名最靠前的位置的正圖像。然后,我們收集5幅排名最高的圖像,將它們與查詢向量合並,計算其均值。最后,利用與該均值向量的相似性對前N幅圖像重新排序。
7 IMPLEMENTATION DETAILS
我們觀察到,對大於128(所有響應的0.001%)的X的響應值進行閾值設定,並將每個值映射到最接近的更小的整數(floor操作),會導致較小的損失。這樣就可以允許帶有查找表的α-th power計算,並加速積分圖像的構造。此外,我們通過對同一張α-th power查找表進行二分搜索來近似式(3)的α次方根。這個過程使得最優窗口搜索更加高效。
以X表示的響應圖是稀疏的(Agrawal et al.,2014)。特別是,利用Krizhevsky等人(2012)在Oxford Buildings數據集(Philbin et al.,2007)上訓練的網絡將導致81%的響應值為零,便於存儲。我們進一步通過將響應一致量化為8個值來減少內存需求。這將導致更多的元素映射到相同的值。因此,我們使用delta編碼來存儲非零值的位置,並且每個非零元素只使用1字節。注意,在相同的網絡中,分辨率為1024×768的圖像對應大小為30×22的特征通道響應圖。最后,一個圖像需要大約32 kB的內存。在重新排序時,我們每次構造一個積分圖像,並對其元素使用雙精度(8字節)。
8 EXPERIMENTS
本節給出我們勇於圖像檢索的緊湊表征的結果,評估AML的定位精度,最后將其用於檢索重新排序。
Experimental setup. 我們在分別由5063幅圖像和6412幅圖像組成的Oxford Buildings數據集(Philbin et al., 2007)和Paris數據集(Philbin et al., 2008)上評估了所提出的方法。我們將這些數據集稱為Oxford5k和Paris6k。我們還使用了100k的Flickr圖片(Philbin et al.,2007)分別組成Oxford105k和Paris106k。該來自Flickr圖片 (Je ́gou et al., 2010) 的100k干擾集圖像被額外使用以實現更大的數據規模。檢索性能以mean Average Precision(mAP)來衡量。我們遵循標准協議並使用在查詢圖像上定義的邊界框。這些邊界框也被用來評估定位精度。在Oxford5k上測試時,主成分分析是在Paris6k上學習的,反之亦然。為了公平起見,我們只直接將我們的結果與以前沒有在測試集上執行學習的方法進行比較。
我們工作的重點不是訓練CNN,而是從卷積層中提取視覺描述符。我們使用了文獻中廣泛使用的網絡:Krizhevsky等人(2012)的AlexNet和Simonyan & Zisserman(2014)的very deep network (VGG16)。我們之所以選擇VGG16而不是VGG19,是因為我們發現后者在特征提取成本較高的情況下並不總是能夠獲得更好的性能。我們的表征是從最后一個池化層提取的,其中AlexNet有256個特征通道,VGG16有512個特性通道。MatConvNet (Vedaldi & Lenc, 2014)用於提取特征。
Localization accuracy. 為了評估AML的准確性,我們使用成對的Oxford5k查詢圖像及其對應的正圖像。我們首先執行窮舉搜索來檢測全局最優窗口。然后,我們應用我們的加速檢測器,評估較少的區域,並最終細化最好的一個區域。在這兩種情況下,每個窗口計算都使用近似的max-pooling。我們報告了與最優窗口的交並集(IoU),以及與窮舉情況相比評估的窗口數量的百分比(即優化方法查詢的窗口數量/窮舉方法查詢窗口數量)。結果如表1(左)所示。我們提供了一個大的加速,同時保持高重疊的最佳檢測。回想一下,我們的目的是應用這個檢測器來快速重新排序。測量IoU為定位精度提供了證據,但是我們觀察到它並不直接影響檢索性能。我們最終為重新排序設置s = 1.1和t = 3。
為了評估與ground truth標注相關的定位精度,我們交叉匹配每個建築存在的5張查詢圖像。其中一個用作查詢(裁剪邊框),而對於另一個,我們將檢測到的區域與ground-truth標注進行比較。在Oxford5k (Paris6k)數據集上,窮舉評估獲得的IoU值為52.6%(52.9%),加速方法獲得的IoU值為51.3%(51.4%)。精度損失是有限的,而定位大約是180倍快。AML提供了一個低計算代價的粗略定位。當用單線程實現對1000張圖片重新排序時,這樣的設置導致使用AlexNet的平均重新排序查詢時間為2.9秒。
Retrieval and re-ranking. 我們使用MAC和R-MAC緊湊表征來評估檢索性能。對MAC向量分別進行l2-歸一化、PCA-白化和l2-歸一化,對R-MAC的相應處理則如第4節所述。表1(右)給出了Oxford5k上的結果。我們評估不同的輸入圖像分辨率,觀察原始圖像大小為1024時提供更高的性能。請注意,MAC與Azizpour等人(2014)提出的MAC類似,但是他們的過程仍然受到標准輸入大小和高寬比的限制。由於兩個特征向量具有完全相同的維數,該算法在不增加額外代價的情況下,大大提高了算法的性能。將不同尺度的區域聚合在一起,即L = 3意味着將尺度l = 1、l = 2和l = 3的區域組合在一起。我們在下面設L = 3。為了分解R-MAC的組成部分,我們通過只聚集l = 3的區域來構造R-MAC。使用VGG16在Oxford5k數據集上實現的mAP等於63.0。聚合l = 2和l = 3兩個區域將mAP提高到65.4。最后,添加l = 1(原來的R-MAC)后執行66.9的mAP效果(見表1)。在Oxford105k上的過濾時間平均為12 ms。
接下來我們使用AML對圖像進行重新排序,在Oxford105k上對多達1000張圖像進行重新排序的性能評估。性能得到了持續的提高,如圖4所示。R-MAC帶來了更大的好處,VGG16表現比AlexNet更好。如第6節所述,查詢擴展(QE)方法以較低的額外成本提高了性能,因為只對重新排序的short-list重新計算相似度。最后,我們使用1M張干擾物圖像進行了大規模實驗,結果如圖4所示。AML將性能提高了13%。
圖5展示了使用MAC排序和使用AML重新排序的例子。回想一下,我們只提供了一個粗略的目標定位,因為我們的主要目標是獲得改進的圖像相似度。此外,所提供的定位對於重新排序來說足夠精確。
Comparison to the state of the art. 我們將提出的方法與最先進的緊湊表征和基於局部特征的方法進行比較,這些方法執行精確的描述符匹配、重新排序或查詢擴展。結果如表2所示。使用AlexNex和VGG16分別為R-MAC生成256維和512維的向量。對於緊湊的表征,我們的小尺寸R-MAC優於所有其他方法。在Paris數據集上的更好性能是從預先訓練網絡的性質繼承的;使用VGG的基准MAC在Oxford5k上達到55.2的mAP,在Paris6k上達到74.7的mAP。
與以往基於CNN層的描述方案不同,我們的方法在幾何匹配和查詢擴展方面可與基於局部特征的最佳方法競爭。我們的AML甚至可以超過它們:雖然我們在Oxford數據集上的成績較低,但我們在Paris數據集上取得了最好的成績,而且據我們所知,在這個基准測試中,我們的成績超過了所有已發布的結果。Paris6k數據集上最好的成績是由Arandjelovic和Zisserman(2012)(91.0)和Zhong等人(2015)(91.5)報告的。這些都是通過學習Paris6k本身的碼本和執行索引數據集的預處理來實現的。
Discussion about other CNN-based approaches. Razavian等人(2014b)提出執行區域交叉匹配(cross-matching),並累積每個查詢區域的最大相似度。我們利用R-MAC中區域向量的集合來評估交叉匹配過程;我們簡單地跳過最后的聚合過程,單獨保留區域向量。交叉匹配在Oxford5k中作為過濾階段能達到75.2% mAP,而在此之上使用AML重新排列作為補充,能將性能提高到78.1%。然而,交叉匹配有兩個缺點。首先,需要將區域向量單獨存儲,增加|R|倍數的內存需要,其中|R|為提取區域的數量。其次,復雜度代價在索引圖像的數量上是線性的,並且相當高,因為它需要計算每個圖像的|R|2(例如1024 (Razavian et al., 2014b))個內積。Razavian等人(2014b)的工作通過擴大提供的查詢邊框,遵循了一種非標准的評估協議。另外,他們向CNN提供了32幅576×576分辨率的圖像,特征提取的成本非常高。Xie等人(2015)最近的工作與他們的工作非常相似,在檢索和分類方面都有應用。
Babenko和Lempitsky(2015)表明,在最終的圖像向量進行了PCA白化后時,卷積層激活的全局sum-pooling效果優於max-pooling。如果不使用白化,那么后者更好。在目標定位中,我們利用AML在查詢時對大量候選區域進行了有效的評估。對每個候選區域向量進行白化,會顯著增加白化的代價,所以在該任務重是禁止的。為了我們提出的R-MAC和AML以及測試性能,我們將max-pooling切換到sum-pooling。注意,sum-pooling是我們的integral max-pooling的參數α=1的特殊情況。在Paris106k上切換到sum-pooling使R-MAC得到69.8的mAP, R-MAC +AML +QE則能得到76.9的mAP。這些分數可以直接與表2中的分數進行比較,並表明我們的選擇在所有情況下都是更好的。
9 CONCLUSIONS
在這項工作中,我們通過使用卷積層的CNN激活來重新訪問過濾和重新排序檢索階段。我們的緊湊向量表征用簡單的聚合方法編碼了幾個圖像區域,並被證明優於現有的競爭對手。我們的定位方法提高了最初基於緊湊表征的檢索系統的性能。在過濾階段使用采用的相同的CNN信息也用來進行重新排序。我們的方法與使用昂貴的幾何匹配或查詢擴展的最先進的方法競爭,在Paris數據集上取得了最高的性能,並提供了比現有的基於CNN特征的方法更好的性能。最近的一項研究(Arandjelovic et al.,2015)顯示了如何通過基於MAC相似度的端到端微調來提高MAC性能。