Image Processing and Computer Vision_Review:HPatches A benchmark and evaluation of handcrafted and learned local descriptors——2017.04


翻譯

HPatches:手工和學習本地描述符的基准和評估——http://tongtianta.site/paper/8979

 

摘要:在本文中,我們提出了一個評估本地圖像描述符的新基准。我們證明現有數據集和評估協議沒有明確指出評估的所有方面,導致文獻中報告的結果含糊不清和不一致。此外,由於最近通過從大注釋數據集中學習它們而獲得的局部描述符的改進,這些數據集幾乎飽和。因此,我們引入了一個適用於訓練和測試現代描述符的新的大型數據集,以及在匹配,檢索和分類等幾個任務中嚴格定義的評估協議。這允許在不同的應用場景中進行更真實且更可靠的比較。我們評估幾個狀態描述符的性能並分析它們的屬性。我們表明,傳統手工描述符的簡單規范化可以在實際的基准評估中將其性能提升到基於深度學習的描述符的水平。

 

一,簡介
局部特征描述符仍然是圖像匹配和檢索系統的重要組成部分,它是一個活躍的研究領域。隨着可學習表示的成功以及越來越大的標記數據集的可用性,對局部描述符的研究已經復興。端到端學習允許徹底優化可用基准的描述符,顯着優於完全[20]或半手工制作的特征[21,32]。

表1.在同一基准評估相同描述符的同時,文獻中報告的結論存在矛盾(牛津[22])。由於隱含參數的變化,行報告不一致的評估結果,例如特征檢測器。

 

然而令人驚訝的是,這些據稱更好的描述符的采用在應用中受到限制,SIFT [20]仍然主導着這一領域。我們認為這是由於基於現有基准的報告績效評估不一致[22,38]。這些數據集要么很小,要么缺乏多樣性,以便很好地概括描述符的各種應用。描述符技術和應用要求的進展尚未與基准和評估協議的可比較發展相匹配。因此,盡管學習的描述符可能針對特定場景進行了高度優化,但尚不清楚它們是否在更一般的情況下運行良好,例如:在用於訓練它們的特定數據集之外。事實上,如表1所示,僅根據已發表的實驗比較描述符是困難和不確定的。

在本文中,我們為局部特征描述符引入了一個新穎的基准套件,它具有明顯更大的定義,具有明確定義的協議和更好的泛化屬性,可以取代現有的數據集。這得益於牛津匹配數據集[22]的成功,這是最廣泛采用且仍然非常受歡迎的本地特征評估基准,盡管只有48個圖像。這對於在深度學習和大規模數據集時代評估現代描述符是非常不利的。雖然存在一些較大的數據集,如第2節所述,但在數據和任務多樣性,評估指標和實驗重現性方面存在其他重要缺陷。我們通過在第3節中確定並滿足此類基准的關鍵要求來解決這些缺點。

數據多樣性被認為對於評估描述符的各種屬性尤為重要。為此,我們在真實和變化的捕獲條件下收集大量不同場景的多圖像等級,如第4節所述。場景被選擇為代表不同的用例並在不同的視點,照明或時間下捕獲條件,包括在申請中遇到的具有挑戰性的滋擾因素。圖像用地面實況變換注釋,允許識別評估由描述符建立的匹配質量所必需的唯一對應關系。
比較的再現性和公平性在基准測試中至關重要。通過消除檢測器參數的影響來解決這個問題。因此,基准是基於提取的局部圖像塊而不是整個圖像,這帶來了重要的好處:i)它允許比較描述符模數檢測器的選擇,ii)它簡化了過程並使實驗可重復,並且重要的是, iii)它避免了各種偏見,例如測量區域的數量或大小或半局部幾何約束使得基於圖像的基准測試結果無法比擬(第2部分)。

任務多樣性是現有評估基准中很少涉及的另一項要求。為此,我們在第5節中定義了三個互補的基准測試任務:補丁驗證(補丁對的分類),圖像匹配和補丁檢索。這些代表了不同的用例,正如我們在實驗中所示,探測器的排名取決於所考慮的任務。

雖然這項工作側重於局部描述符,但建議的數據集包含groundtruth,包括成對幾何變換,這將允許將來對特征檢測器進行評估。我們相信這個基准將使社區能夠獲得最先進的本地特征匹配的新見解,因為它比這個領域中使用的任何現有數據集更加多樣化並且顯着更大。我們在第6節中評估了各種方法,包括簡單基線,手工制作的描述符和最先進的學習描述符。實驗結果表明描述符性能及其排名可能因不同的任務而有所不同,並且與文獻中報道的結果不同。這進一步突出了為本地描述符引入大量,多樣和可重復的評估基准的重要性。

實施評估協議的所有基准數據和代碼均可公開獲取1。1:https://github.com/hpatches

 

2.審查現有基准
在本節中,我們將回顧用於評估本地描述符的現有數據集和基准,並討論它們的主要缺點。
2.1. 基於圖像的基准

在圖像匹配基准中,描述符用於建立相同對象或場景的圖像之間的對應關系。通過共變體檢測器從每個圖像提取的局部特征通過比較它們的描述符來匹配,通常與最近鄰方法相比較。然后,評估推定的匹配與圖像之間的已知幾何變換的兼容性(通常是單應性),並且相對的相對數量被用作評估量度。

評估描述符和檢測器的最廣泛采用的基准是牛津匹配數據集[22]。它由8個場景的圖像序列組成,每個場景包含6個圖像,以及地面真實的單應性。雖然牛津數據集包含全部由相機捕獲的圖像,但生成匹配數據集[14]是通過使用合成變換生成圖像而獲得的,並且包含16個48個圖像的序列。然而,轉換的合成性質並不模擬通常在捕獲過程中發生的所有噪聲,因此使這些數據比牛津數據[4]更具挑戰性。 DTU機器人數據集[1]包含3D對象的真實圖像,使用機械臂在受控實驗室條件下捕獲,適用於某些應用場景,但數據的多樣性有限。漢諾威數據集[11]研究高分辨率匹配,包含高達8百萬像素的圖像,具有高度准確的地面真實單應性。但是,它僅限於包含5個場景。 Edge Foci數據集[42]由觀察條件變化很大的序列組成,使評估在某種程度上適用於極端情況;此外,非平面場景的基礎並不唯一地識別對應關系,因為變換不能通過單應性很好地近似。同樣,WxBs數據集[25]側重於非常寬的基線匹配,隨着時間的推移幾何,光照和外觀發生極大變化。

所有這些數據集都有一個重要的缺點,即在不同的描述符評估中留下變化的范圍:沒有預先定義的區域集來匹配。因此,結果很大程度上取決於探測器的選擇(方法,實現和參數),使得描述符的比較非常困難和不可靠。這在表1中得到證實,即使使用相同的方案對相同的數據進行評估,不同的論文也會得出不同的結論。

 

表2.使用不同的ρ將檢測到的DoG關鍵點的大小縮放到測量區域的大小的效果。列1 | X表示序列中第一個和第X個圖像之間的匹配分數,用於不同的縮放因子ρ。

 

定義要匹配的特征的中心位置也不足以約束問題。例如,這不會影響用於計算描述符的圖像區域,通常稱為測量區域。通常將測量區域設置為固定但任意設置的特征尺寸縮放,並且該參數通常不在報告中報告或變化。不幸的是,這對性能有重大影響[31]。表2顯示了在辦公室數據中測量區域的不同比例因子的匹配分數.2超過50%mAP的變化發生;實際上,由於這種場景的平面性,較大的測量區域導致改善的匹配結果。

使用DoG檢測器和SIFT描述符在Oxford匹配數據集中的Leuven序列上計算2mAP。

為了控制測量區域的大小和其他重要參數,例如模糊量,用於計算描述符的標准化補丁的分辨率[34],或者使用半局部幾何約束,我們認為描述符基准應該基於圖像補丁而不是整個圖像。因此,消除了所有這樣的模糊,並且可以將描述符表示和評估為將補片x∈R(H×H×3)映射到D維特征向量的函數f(x)∈RD。接下來將討論這種類型的基准。

2.2. 基於補丁的基准測試
基於補丁的基准包括從圖像中的興趣點位置提取的補丁。然后將貼片標准化為相同的大小,並且用標簽指示對或組,用標簽指示對應的正或負對象。通常通過使用圖像groundtruth來建立注釋,例如圖像之間的幾何變換。在基於圖像的評估的情況下,提取,標准化和標記補丁的過程留下變化的范圍,並且其參數在評估之間不同。

第一個流行的基於補丁的數據集是PhotoTourism [38]。自推出以來,使用補丁進行基准測試(第5.3節)的許多好處變得明顯。 PhotoTourism引入了一個簡單而明確的評估協議,我們將其稱為補丁驗證:給定一對補丁,任務是預測它們是否匹配,這將匹配任務減少為二進制分類問題。該公式特別適用於基於學習的方法,包括CNN和度量學習,特別是由於該數據集中可用的大量補丁。 PhotoTourism的主要限制是其稀缺的數據多樣性(只有三個場景:Liberty,Notre-Dame和Yosemite),任務多樣性(只有補丁驗證任務)和特征類型多樣性(僅提取DoG特征)。 CVDS數據集[9]通過從五個MPEG-CDVS中提取補丁來解決數據多樣性問題:圖形,繪畫,視頻,建築物和通用對象。盡管它具有顯着的多樣性,但實驗表明,最先進的描述符在這些數據上獲得了高性能分數[3]。 RomePatches數據集[26]考慮了一個反映圖像檢索場景的查詢排名任務,但僅限於10K補丁,這使得它比PhotoTourism小一個數量級。

表3.現有數據集與建議的HPatches數據集的比較。

 

2.3. Metrics
除了選擇數據,補丁和任務外,評估指標的選擇也很重要。對於分類,接收器操作特性(ROC)曲線經常被用作[12,13]作為比較的基礎。然而,補丁匹配本質上是高度不平衡的,其中許多比正對應候選者更負面; ROC曲線對於不平衡數據的代表性較低,因此,ROC空間中的強大性能不一定推廣到應用中的強大性能,例如最近鄰匹配[30,39,5,33]。一些論文[38,32,33]報道了ROC曲線上的單個點(FPR95,即95%真陽性回憶率的假陽性率),這比不等的數據更適合於等誤差率或者下面的面積。 ROC曲線;但是,這會減少整條曲線提供的信息。對於不平衡數據集,PrecisionRecall和平均平均精度(mAP)是更好的度量選擇 - 例如,DBRIEF [33]在ROC空間中表現優異,但在牛津數據集中具有非常低(≈0.01)的mAP [19]。

3.Benchmark設計

圖1.圖像序列示例;注意場景和滋擾因素的多樣性,包括視點,光照,焦點,反射和其他變化。


我們通過確定以下要求來解決第2節中討論的現有數據集的缺點:

•可重復,基於補丁:應在補丁上進行描述符評估,以消除檢測器相關因素。這導致不同作品的標准化,並使結果直接可比。
•多樣化:代表許多不同的場景和圖像捕捉條件。
•真實:由於無法在圖像變換中建模的煩擾因素,已發現實際數據比合成數據更具挑戰性。
•大:允許准確和穩定的評估,以及為基於學習的描述符提供大量的培訓集。
•多任務:代表幾個用例,從匹配圖像對到圖像檢索。這允許在相同數據內對描述符性能進行跨任務比較。

基於這些期望的屬性,我們引入了一個新的大型圖像序列數據集(第4節),用單應性標注。這用於生成基於補丁的基准測試套件,用於評估本地圖像描述符(第5節)。表3根據上述屬性將建議的數據集與現有基准進行了比較。

4.圖像和補丁
從各種來源收集圖像,包括現有數據集。我們通過相機捕獲了51個序列,來自[16]的33個場景,來自[1]的12個場景,來自[10]的5個場景,來自[22]的4個場景,來自[35]的2個場景和來自[40]的1個場景。 ]。一些序列如圖1所示。在57個場景中,主要的滋擾因素是光度變化,其余59個序列由於視點變化而顯示出顯着的幾何變形。
序列包括參考圖像和具有不同幾何變化光度的5個目標圖像。捕獲序列使得圖像之間的幾何變換可以通過從參考圖像到每個目標圖像的單應性很好地近似。在[22]之后估計單應性。

圖2.使用EASY,HARD和TOUGH分布的提取貼片可視化的幾何噪聲示例。

 

使用以下協議提取補丁。使用幾個尺度不變的興趣點檢測器,即DoG,Hessian-Hessian和Harris-Laplace來提取大於1.6px的尺度的特征3,這給出了穩定的點。基於它們的交叉結合(IoU)重疊(> 0.5)丟棄接近重復的區域,並且隨機保留每個簇的一個區域。這可以保持重疊小於0.5 IoU的區域。然后隨機選擇每個圖像大約1,300個區域。

圖3. Hessian和HessianAf fi探測器在[23]的視點序列上的平均重疊精度。線條顏色對數據集和線條樣式進行編碼。 EASY和HARD變體的所選重疊用虛線可視化。

 

對於每個序列,在參考圖像中檢測斑塊並使用groundtruth單應性投影在目標圖像上。這避免了探測器的局限性,由於重要的視點或光照變化,探測器可能無法在每個目標圖像中提供相應的區域。此外,它允許提取更多補丁,從而更好地評估這種情況下的描述符。丟棄未完全包含在所有目標圖像中的區域。因此,一組相應的補丁包含序列中每個圖像中的一個。實際上,當檢測器提取不同圖像中的相應區域時,它會產生一定量的噪聲。為了模擬這種噪音,使用三種設置擾亂檢測:EASY,HARD和TOUGH。這是通過將隨機變換T:R2→R2應用於投影之前的區域而獲得的。假設區域中心是坐標原點,則變換包括角度θ的旋轉R(θ),s /√a和s√a的各向異性縮放,以及[m tx,m ty]的平移,因此平移成比例到檢測范圍m。從區間θ∈[-θmax,θmax],tx,ty∈[-tmax,tmax],log2(s)∈[-smax,smax],log2(a)∈[-amax]中均勻地采樣變換參數。 amax],其每個設置的值在表4中給出。這些設置反映了牛津匹配基准上Hessian和Hessian-Af fi探測器的典型重疊精度。在那里,通過增加變換對每個序列中的圖像進行分類,導致檢測器噪聲增加。圖3顯示EASY,HARD和TOUGH組對應於在這些序列的圖像1-2,3-4和5-6中提取的區域。

表4。幾何噪聲分布的范圍,以貼片尺度為單位。

 

檢測到的區域按比例縮放5倍(參見第2節)。參考圖像中的最小斑塊尺寸是16×16px,因為僅考慮來自檢測尺度大於1.6px的區域。在每個區域中,使用梯度方向的直方圖來估計主導方位角[20]。通過使用雙線性插值將檢測到的自然區域歸一化為圓並且提取65×65像素的正方形來對區域進行整形。提取的補丁的示例如圖所示。 2,增加探測器噪聲的效果清晰可見。

 

5.Benchmark任務
在本節中,我們定義了基准指標,任務及其評估協議:補丁驗證,圖像匹配和補丁檢索。

這些任務旨在模仿本地描述符的典型用例。補丁驗證(第5.2節)基於[38]並測量描述符分類是否從同一測量中提取兩個補丁的能力。受[22]啟發的圖像匹配(第5.3節)測試描述符在兩個圖像中正確識別對應關系的程度。最后,補丁檢索(第5.4節)測試描述符如何與aquery補丁匹配到從許多圖像中提取的補丁池,包括許多干擾物。這是基於局部特征的圖像索引的代理[27,26]。

5.1. 評估指標
我們首先確定了HPatches中使用的精度和召回評估指標。令y =(y1,...,yn)∈{-1,0,+ 1} n是針對補丁查詢返回的補丁的排序列表的標簽,分別指示否定,忽略和肯定匹配。然后在等級i處的精度和召回由4 Pi(y)= Pi k = 1 [yk] + / Pi k = 1 | yk |給出。和Ri(y)= P i k = 1 [yk] + / PN k = 1 [yk] +;平均精度(AP)由AP(y)= Pk給出:yk = + 1 Pk(y)/ PN k = 1 [yk] +。主要區別是w.r.t. PR的標准定義是可以忽略的條目,即yi = 0,將在5.4節中用於檢索任務。在這種情況下,設K≥PNk= 1 [yk] +為正數的總數;召回計算為Ri(y; K)= Pi k = 1 [yk] + / K且AP為AP(y; K)= Pk:yk = + 1 Pk / K,其對應於截斷的PR曲線)。

5.2 補丁驗證
在補丁驗證中,描述符用於分類兩個補丁是否對應。基准從正面和負面貼片對的列表P =((xi,x0 i,yi),i = 1,...,N)開始,其中xi,x0i∈R65×65×1是貼片和yi =±1是他們的標簽。數據集用於評估匹配方法A,給定任意兩個補丁xi,x0 i,產生兩個補丁對應的置信分數si∈R。該方法的質量被測量為排序補丁的平均精度,即AP(yπ1,...,yπN),其中π是按降序對分數進行分類的排列(即sπ1≥sπ2≥... .≥sπn)應用5.1節中的公式。
基准測試使用通過改變投影噪聲提取的四組補丁對,如第4節中所述,即EASY,HARD或TOUGH,以及一組負對,它們可以從同一序列中的圖像或不同序列中采樣。然后將方法A的整體性能計算為六個補丁集的平均AP。總的來說,我們每組產生2×105個正對和1×106個負對。

注意,基准僅需要算法A計算的分數si;特別地,這統一了具有自定義相似性度量的描述符的評估,包括學習的相似性度量。該評估協議類似於[38]。然而,雖然在那里使用ROC [13],但是這里優選AP [30],因為數據集是高度不平衡的,絕大多數(106)的補丁對是負的。后者更能代表典型的匹配方案。

5.3. 圖像匹配
在圖像匹配中,描述符用於匹配從參考圖像到目標圖像的補丁。在該任務中,圖像是N個補丁Lk =(xik,i = 1,...,N)的集合。考慮一對圖像D =(L0,L1),其中L0是參考,L1是目標。因此,在匹配之后,xi0與xi1對應。
對D用於評估算法A,給定參考貼片xi0∈L0,確定最佳匹配貼片xσi1∈L1的索引σi∈{1,...,N},以及相應的置信分數si∈R。然后,基准將分配σi標記為yi = 2 [σi? = i] -1,並計算AP(yπ1,...,yπN; N),其中π是按降序對分數進行排序的排列(請注意,正結果的數量固定為N;請參閱第5.1節) 。
我們根據它們是否因視點或光照而變化來對序列進行分組,並且每個組都使用EASY,HARD和TOUGH補丁進行實例化。算法A的整體性能被計算為所有這些圖像對和變體的平均AP。

注意,基准僅需要針對每個圖像對D的索引σi和由算法A計算的分數si。通常,這些可以通過提取補丁描述符並與相似性度量進行比較來計算。
該評估協議旨在與[22]中的那個非常相似。一個值得注意的區別在於,由於補丁數據集的構造方式使得每個參考補丁在每個目標圖像中都有相應的補丁,因此最大回憶率始終為100%。還要注意,與驗證任務類似,基准測試評估由測試算法提供的描述符和相似性得分的組合性能。

5.4. 補丁檢索
在補丁檢索中,描述符用於在大量補丁中找到補丁對應關系,其中很大一部分是從混淆圖像中提取的干擾物。考慮集合P =(x0,(xi,yi),i = 1,...,N),其包括從參考圖像L0提取的查詢補丁x0,以及來自圖像Lk,k = 1的所有補丁。 ..,K在相同的序列(匹配的圖像),以及許多混雜的圖像。

表5.所選描述符的基本屬性。對於二進制描述符,維度以位(*)表示,否則以單精度浮點數表示。計算效率是以每秒提取的數千個描述符來衡量的。

 

在檢索協議中,如果補丁xi對應於查詢補丁x0,則補丁xi被給予正標簽yi = +1,而對應於查詢補丁x0則補償為yi = -1。由於在相同序列的每個圖像Lk中恰好存在一個對應的補丁,因此在D中確實存在K個正補丁。但是,與查詢補丁x0不對應但至少屬於匹配圖像Lk的檢索補丁xi被忽略(yi = 0)。這個想法是這樣的補丁對於檢索正確的圖像沒有害處,並且在圖像中重復結構的情況下可能經常發生這種無害的錯誤。
集合P用於評估算法A,該算法A為每個補丁xi分配補丁得分si∈R,補丁與查詢x0匹配。然后基准返回AP(yπ1,...,yπN; K),其中π是按降序對分數進行排序的排列。

基准提取1×104個集合P,每個集合對應於不同的查詢補丁x0及其對應的5個補丁以及從所有序列中隨機選擇的2×104個干擾物。此外,有三種變體實例化為EASY,HARD和TOUGH。算法A的整體性能被計算為所有這些集合及其變體的平均AP。該基准測試的設計靈感來自經典圖像檢索系統,如[27,28,26],它使用補丁及其描述符作為圖像索引中的條目。可以通過使用PhotoTourism數據集來執行類似的評估,該數據集包括~100K小組相應的補丁。不幸的是,由於這些小集不是最大的,所以不可能知道補丁沒有正確的對應而沒有基本事實,這使得評估有噪聲。

 

6.實驗結果
在本節中,我們使用新引入的基准來評估局部描述符,並討論與文獻相關的結果。
6.1.Descriptors
我們評估以下描述符,總結在表5中。我們包括兩個基線:MSTD,[μ,σ],它是貼片的平均μ和標准偏差σ,RESZ,通過將貼片的大小調整為6×6得到的矢量像素並通過減去μ並除以σ來對其進行歸一化。對於基於SIFT的描述符,我們包括SIFT [20]及其變體RSIFT [2]。從二元描述符族我們測試Brief [8],基於隨機強度比較,ORB [29],使用不相關的二進制測試,和BBOOST [32],其中使用增強選擇二進制測試。最后,我們評估了幾個最近的深度描述符,包括DeepCompare [41](DCS,DC-S2S)的暹羅變體,其中一個和兩個流CNN架構用於一個或兩個補丁作物,DeepDesc [30](DDESC),它利用了硬 - 負挖掘,以及TFeat描述符[4]的TFeat余量*(TFM)和比率*(TF-R),基於淺卷積網絡,三元組學習約束和快速硬負挖掘。所有基於學習的描述符都接受了PhotoTourism數據的培訓,這與我們的新基准不同。

在[2,7,17​​]中已經表明,描述符歸一化通常會顯着改善性能。因此,我們還通過應用ZCA白化包括所選描述符的后處理變體[6,p。 299-300]具有限幅特征值[15],然后是冪律歸一化[2]和L2歸一化。 ZCA投影是在數據集的子集上計算的(注意ZCA是無監督的)。針對每個描述符分別估計特征限幅的閾值,以最大化其在數據集的子集上的性能。規范化不用於普通基線和二進制描述符。
表5示出了維度,以像素為單位的測量區域的大小以及每個描述符的提取時間。 DeepCompare [41]變體的最高維度為256和512,否則其他實際值描述符除了MSTD和RESZ之外的128維。所有二進制描述符都是256位。就速度而言,二進制描述符BRIEF和ORB比最有效的基於CNN的特征(即TF)快4倍。其他描述符至少慢一個數量級。請注意,MSTD和RESZ是在Matlab中實現的,因此應謹慎解釋它們的效率。

6.2. 結果
描述符在三個基准任務上進行評估:補丁驗證,圖像匹配和補丁檢索,如第5節中所定義。在圖5中的所有圖中。如圖4所示,標記的顏色表示幾何噪聲的量,即EASY,HARD和TOUGH,如第4節所述。每個任務的實驗設置有兩種變體,如下面的討論中所述,以及類型標記的對應於實驗設置。條形圖是六種運行方式,由三種噪聲變量組成,每種都有兩個額外的設置。虛線條邊框和+表示ZCA投影和標准化特征。
VERI科幻陽離子。 ZCA投影和標准化+ TF-R,+ DC-S2S緊跟其他TF-,+ DDESC和+ DC-S,后處理SIFT和二進制描述符的得分略低。后處理為DC-以及SIFT提供了顯着的提升,但對基於TF的描述符的改進較小。期望CNN特征的良好性能,因為這些描述符與它們的距離度量一起被優化以在驗證任務中表現良好。對來自相同序列SAMESEQ和來自不同序列DIFFSEQ的貼片形成的負對進行實驗。來自SAMESEQ的那些被認為更具挑戰性,因為圖像的不同部分中的紋理通常是相似的。事實上,SAMESEQ的結果一直較低。這表明,不僅正數據中的噪聲構成挑戰,而且性能也可能根據負面示例的來源而變化。

匹配。描述符的排名隨此任務而變化。盡管標准化+ DDESC仍然表現良好,但令人驚訝的是,+ RSIFT出現在其他描述符之前。 + TF還提供良好的匹配性能。總體mAP分數遠低於驗證任務,因為這里的正面與負面例子的比率明顯較低,而所有負面例子都來自同一序列。與驗證相比,SIFT和深度描述符之間的差距也很小。另一個有趣的觀察結果是,具有光度變化(ILLUM)的序列的結果始終低於視點變化(VIEWPT)。這與牛津數據評估中觀察到的不同[22]。與光度變化的穩健性相比,似乎在幾何不變性方面取得了更多進展。擬議的HPatches數據集包括許多具有極端照明變化的序列。

恢復。檢索場景中的最佳表現與匹配相同。特別是,SIFT變種緊隨+ DDESC。與匹配相比,整體性能稍好一些,這可以通過源於匹配中的相同序列和檢索中的不同序列的干擾物來再次解釋。

得心應手。任務中有幾個有趣的觀察結果。首先,描述符的排名發生變化,這證明需要多個評估指標。其次,SIFT變體,特別是在進行歸一化后,表現非常好。事實上,+ RSIFT是圖像匹配和補丁檢索中第二好的描述符。 MSTD在驗證方面給出了很好的分數,但完全無法進行匹配和檢索,因為兩者都依賴於最近鄰匹配。良好的驗證性能顯然不能很好地概括為其他任務,這更好地反映了描述符的實際應用。這進一步強調了使用多任務基准來補充PhotoTourism的培訓和測試的必要性,這在大多數最近的論文中已經完成,並且類似於此處的驗證任務。EASY和TOUGH幾何失真以及照明變化的性能差異高達30%,這表明這兩個領域仍有改進的余地。

圖4.驗證,匹配和檢索結果。標記的顏色表示EASY,HARD和TOUGH噪音。標記的類型對應於實驗設置的變體(參見第6.2節)。 Bar是每個任務的6個變體的平均值。虛線條邊框和+表示ZCA投影和標准化特征。

 

盡管+ DDESC [30]接近每個類別中的最高分,但深度描述符和SIFT的性能在任務中變化,但是它是最慢的計算。在匹配和檢索中,ZCA和規范化將SIFT的性能提升到最高水平。與一些深度描述符相比,SIFT對於高度幾何噪聲似乎不太穩健,對於EASY和TOUGH基准測試具有很大的擴展性。這在補丁驗證任務中尤為明顯,其中SIFT的表現優於TOUGH數據的大多數其他描述符。
對於圖像匹配和補丁檢索任務,二進制描述符的表現優於原始SIFT,這可能是由於其辨別能力和對幾何噪聲的更好的魯棒性。二進制描述符僅適用於補丁驗證任務。然而,二進制描述符具有其他優點,例如緊湊性和速度,因此它們仍然是精度不如速度重要的應用中的最佳選擇。另外+ TF表現相對較好,特別是在考慮其效率時。

后處理歸一化,特別是平方根,具有顯着的效果。對於大多數描述符,標准化特征比原始特征執行得更好。
最后,與其他任務相比,補丁驗證平均獲得了更高的mAP分數。這主要可以從簡單的MSTD描述符的相對良好的性能看出。這證實了補丁驗證任務本身並不充分,其他任務在描述符評估中至關重要。

 

7.結論
隨着深度學習的出現,新穎和更強大的本地描述符的發展已經大大加速。但是,正如我們在本文中所示,通常用於評估此類描述符的基准是不充分的,這使得比較不可靠。從長遠來看,這可能會對進一步的研究產生不利影響。為了解決這個問題,我們引入了HPatches,一種用於本地描述符的新公共基准。新的基准測試是基於補丁的,消除了困擾現有基於圖像的基准測試的許多模糊性,並有利於嚴格,可重復和大規模的實驗。通過考慮許多不同的場景和視覺效果類型,以及接近描述符實際應用的三個基准任務,該基准還改進了其他數據集中存在的有限數據和任務多樣性。

盡管我們的基准測試套件具有多任務復雜性,但使用評估很容易,因為我們提供了可以輕松使用的協議的開源實現。 HPatches可以取代PhotoTourism等數據集以及較舊但仍經常使用的牛津匹配數據集,解決它們的缺點,並為對本地描述符感興趣的研究人員提供有價值的工具。
致謝Karel Lenc得到了ERC 677195-IDIU的支持,Vassileios Balntas得到了FACER2VM EPSRC EP / N007743 / 1的支持。我們要感謝Giorgos Tolias對描述符規范化的幫助。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM