原文地址:http://www.sohu.com/a/157742015_715754
SURF: Speeded Up Robust Features
摘要
本文提出了一種新型的具有尺度和旋轉不變特性的興趣點檢測和描述方法,簡稱為SURF(Speeded Up Robust Features)。在可重復性、獨特性和魯棒性方面,與前人提出的方法相比,該方法性能接近甚至更好,但其計算和匹配的速度更快。
該方法得以實現,是依賴於用積分圖像來計算圖像卷積,建立在現有的先進檢測和描述算子(基於Hessian矩陣的檢測算子,基於分布特性的描述算子)的基礎上,並將這些方法進行簡化,只保留必要的部分。該方法是將新型的檢測、描述和匹配步驟組合在一起而得到。本文給出了該方法應用於一個標准測試集的實驗結果,以及針對現實生活中物體識別應用的實驗結果。兩種情形下,SURF都表現良好。
1 簡介
尋找兩幅圖像相同場景或物體的興趣點,是很多計算機視覺應用領域的一個組成部分,例如照相機標定、三維重建、圖像配准以及物體識別等。本文的任務就是搜索不同圖像中的興趣 ,可以分成三個主要的步驟。第一,選擇圖像中特殊的位置點作為興趣點,如角點、斑點、T形連接點(T-junction)。興趣點檢測最重要的性質是可重復性,即在不同的觀察條件下,能否可靠地找到相同的興趣點。第二,每個興趣點的鄰域用一個特征向量表示。這個描述算子必須是獨特的,同時對噪聲、錯誤的檢測點、幾何和亮度變化是魯棒的。最后,描述向量在不同的圖像之間進行匹配。匹配通常是基於向量之間的距離,如Mahalanobis或Euclidean距離。描述向量的維度對匹配的計算時間有重要影響,所以希望減小描述向量的維度。
我們的目標是開發出一種檢測和描述算子,與現有的方法相比,計算更快但又不犧牲性能。為了實現目標,必須要妥善的處理上述要求,比如減小描述向量的維度和復雜度,同時又要保持足夠的獨特性。
參考文獻[1-6]提出了大量的檢測和描述方法。文獻[7-9]給出了這些算法作用於標准數據集的詳細的比較和評估。我們開發快速的檢測和描述算子時,從前人的工作中得到一些概念,總結出了對算法性能有影響的一些因素。在我們基於標准數據集以及現實生活中物體識別的實驗中,檢測和描述算法不僅速度更快,且獨特性更好,可重復性也沒有減少。
在處理局部特征時,首先需要明確的問題是對不變性水平的要求。很明顯,這取決於幾何和光照變化程度,而它們又取決於拍照條件的變化。我們關注具有尺度和旋轉不變性的檢測算子和描述算子。這樣可以在特征的復雜度和對常見變形的魯棒性之間,找到了一個很好的妥協辦法。偏斜(skew)、不等比變形和透視效應被認為是二階的效應為了進一步提高描述子的魯棒性可能需要處理這些二階效應。 Lowe[2]也提到,處理完全的仿射不變性增加的復雜性通常會對魯棒性產生負面影響,並且這么做是不值得的,除非真的要處理非常大的視角變化。在某些情況下,甚至可以不考慮旋轉不變性,檢測算子退化成只考慮尺度不變的版本,我們把它叫做‘upright SURF’(U-SURF)。確實,在很多應用場景下,例如移動機器人導航或者游客視覺引導,照相機僅僅繞垂直軸旋轉。在這種情形下,完全不考慮旋轉不變性不僅能加快計算速度,同時能增加識別能力。對於圖像的亮度變化,我們定義了一種關於變化因數和偏移量的線性模型。需要注意的是我們的檢測和描述算子都沒有使用顏色信息。
本文的結構如下,第2部分介紹相關的工作,這些構成我們算法的基礎;第3部分介紹興趣點檢測算法;第4部分介紹新型的描述算子;第5部分展示實驗結果;第6部分是對全文的總結。
2 相關工作
興趣點檢測使用最廣泛的檢測算法應該是Harris角點檢測[10],最早在1988年提出,它是基於二階矩構成的矩陣的特征值。然而Harris角點檢測不是尺度不變的。Lindeberg提出了一種自動選擇尺度的概念[1]。這樣就可以使用每一幅圖像自有的特征尺度來檢測興趣點。他用Hessian矩陣的行列式值和Laplacian做實驗檢測斑點狀結構,其中Laplacian是Hessian矩陣的跡(即主對角線之和)。Mikolajczyk和Schmid對這個方法進行了改進,他們把Harris-Laplace和Hessian-Laplace結合在一起[11], 創造出了一種魯棒的、尺度不變、重復檢測率很高的檢測算子。他們使用尺度自適應的Harris度量標准,或者Hessian矩陣的行列式值來選擇位置,使用Laplacian來選擇尺度。為了提高計算速度,Lowe[12]使用高斯差分(DoG)來近似高斯Laplace(LoG)。
學者們還提出了很多其他的尺度不變的興趣點檢測算子。Kadir和Brady[13]提出的重點區域檢測(salient region detector)是其中的一個例子,該方法最大化區域內的熵。Jurie等[14]提出了基於邊緣的區域檢測算子。但是這些方法似乎都不太容易加快計算速度。也有學者提出了仿射不變的特征檢測算子,能夠應對更大的視角變化。但是,這超出了本文研究的范圍。
通過研究現有的檢測算子,以及關於它們之間比較的文獻[15,8],我們得出了以下結論:
(1)基於Hessian矩陣的檢測算子比基於Harris的檢測算子要穩定,且重復檢測率更高。使用Hessian矩陣的行列式值比使用它的跡(Lapacian)更有優勢,因為在細長的、局部不均勻的結構檢測時失敗的機率較低。
(2)類似DoG的近似會提高計算速度,且精度不會犧牲太多。
特征描述人們提出了更多種類的特征描述算子,例如高斯微分[16],不變矩[17],復數特征(complex features)[18,19],可控濾波器(steerable filters)[20],基於相位的局部特征[21],和表示興趣點的鄰域內較小尺度的特征的分布的特征算子。Lowe[2]提出的方法,也就是前面提到的最后一種,比其他的方法性能更好[7]。可以這么來解釋,該方法描述了大量圖像強度在空間分布的信息,同時也會對小變形和定位誤差比較魯棒。這種檢測算子[2],簡稱為SIFT,計算興趣點鄰域內梯度幅值的直方圖,保存在一個128維的向量中(8個方向對每個4×4的位置分區內)。
基於SIFT提出了很多改進的算法。Ke和Sukthankar[4]將PCA應用於梯度圖像。這種PCA-SIFT方法,得到一個36維的描述向量,匹配速度更快。但是在Mikolajczyk等[8]的第二個比較研究中,證實它比SIFT的獨特性要差,且計算特征向量的時間較長,減弱了快速匹配帶來的改進效果。在同一篇文章中[8],作者提出了SIFT的一個變種,叫做GLOH,使用相同維度的描述算子,獨特性比SIFT更好。然而,GLOH計算代價更高。
在實際應用中,SIFT描述算子似乎仍然是最吸引人的描述算子,所以目前使用也最廣泛。它的獨特性較好,並且相對來說計算速度較快,這對在線應用場景極其重要。最近,Se等[22]在FPGA上實現了SIFT,將其速度提高了一個數量級。然而在匹配階段,SIFT描述向量較大的維度是它的一個缺點。對於普通PC機上的在線應用,檢測、描述、匹配,這三個步驟的計算速度仍然都需要加快。Lowe提出了一種最優節點優先算法(best-bin-first)[2],提高了匹配計算的速度,但會導致精度有所降低。
本文的方法 本文提出了一種新型的檢測-描述算法,簡稱為SURF(Speed-Up Robust Features)。檢測算子是基於Hessian矩陣[11,1],但是使用了非常基礎的近似,就像DoG[2]是一個非常基礎的基於Laplacian的檢測算子。SURF依賴於積分圖像以減少計算時間,因此我們叫它‘Fast-Hessian’檢測算子。另一方面,描述算子描述了興趣點鄰域內Haar小波響應的分布特性。我們再一次利用積分圖像計算小波響應,以加快計算速度。同時,僅使用64維向量,較少特征向量及其匹配的計算時間,但同時又提高了魯棒性。我們也提出了一種基於Laplacian符號的新的索引方法,這樣不僅提高了匹配的速度,也提高了描述算子的魯棒性。
為了提高本文的獨立可閱讀性,下面簡潔地介紹積分圖像的概念,它是在文獻[23]被定義的。積分圖像能夠快速實現盒狀濾波器的卷積運算(box type convolution)。積分圖像在點
的值是輸入圖像I在點x和原點組成的矩形區域內所有像素點的和,。計算出之后,僅需要額外的四步就可計算出任何垂直的矩形區域內的像素強度之和,與該矩形區域的尺寸大小無關。
3. 快速海森檢測(Fast-Hessian Detector)
本文的檢測算法基於Hessian矩陣,因為它的計算速度和精度都較好。然而,我們沒有針對位置和尺度的選擇使用不同的標准(Hessian-Laplace檢測算子是這么做的[11]),而是選擇Hessian矩陣的特征值同時作為位置和尺度選擇的標准。
給定圖像I上的一個像素點,給定尺度后x點的Hessian矩陣按下式定義
式中是Gaussian二階偏微分
與圖像I的卷積在x點的值,其他兩項和與此類似。
對於尺度空間的分析,高斯卷積是最佳的,文獻[24]給出解釋。然而在實踐中,Gaussian需要進行離散和裁剪(圖1左半部分),即使使用Gaussian濾波器,只要對得到的圖像進行降采樣混疊仍會發生。降低分辨率時不會有新的結構出現,這一性質的一維情況已經得到證明,但是人們普遍知道推廣到二維時並不成立[25]。在這點上來說,高斯核好像被某種程度的高估了,因此我們測試了一個更簡單的可選方案。由於高斯濾波器不是在所有情況下都是理想的,並且考慮到Lowe's近似計算LoG所取得的成功,我們使用盒子濾波器(圖1的右半部分)對LoG 做更進一步的近似。這些盒子濾波器近似代替Gausian核的二階微分,利用積分圖像可以快速計算得到卷積結果,並且速度與濾波器的尺寸無關。從結果展示部分5可看出,其性能與使用經過離散和裁剪的高斯核是相當的。
圖1給出的9×9盒子濾波器是=1.2的高斯核的二階微分的近似,以此作為我們最小的尺度(即最高的空間分辨率)。用,和表示近似值。矩形區域內各點的權重比較簡單以保證高的計算效率,但是需要進一步修正Hessian矩陣行列式計算表達式各項的權重,
,其中是Frobenius范數。因此行列式的最終計算式為
然后濾波之后的結果用濾波器的尺寸進行歸一化,這樣就保證了對不同的濾波器尺寸,Frobenius范數的結果相同。
圖1 從左至右:經過離散和裁剪的Gaussian二階偏微分在y向和xy方向,我們使用盒子濾波器對它們的近似,灰色的區域值為0。
尺度空間通常表示成圖像金字塔。圖像被一個高斯濾波器反復平滑,並且為了得到金字塔的更高層被連續降采樣。由於使用了盒子濾波器和積分圖像,不需要使用相同的濾波器依次作用於上次得到的圖像,而是使用任意尺寸的這種濾波器以完全相同的速度作用於原始圖像,甚至可以做到並行計算(雖然本文還沒有使用並行計算)。因此,尺度空間通過增大濾波器的尺寸進行分析,而不是依次縮小圖像的尺寸。上文的9×9濾波器的結果作為尺度空間的第一層,我們將其記做尺度(與的高斯微分相對應)。尺度空間接下來的層,通過逐漸增大濾波器的尺寸得到,考慮到積分圖像的離散特性和濾波器特殊的結構。濾波器的尺寸可以為9×9,15×15,21×21,27×27等。尺度較大時,相鄰兩個濾波器的尺寸增量也相應地增大。因此,對每一個新的組(octave),濾波器尺寸的增量是加倍的(從6到12,再到24)。同時,尋找興趣點時的采樣間隔也可加倍。
由於經過放大之后,不同濾波器尺寸的比值保持一致,近似Gaussian微分的尺度也相應的放大。例如,我們27×27的濾波器相當於Gaussian微分下采樣。另外,不同濾波器尺寸下Frobenius范數保持不變,它們已經被進行了相對於尺度的歸一化[26]。
為了在圖像空間和尺度空間上定位興趣點,在3×3×3鄰域內使用了非最大值抑制。Hessian矩陣特征值的最大值,在尺度和圖像空間內,使用Brown提出的方法進行插值。在我們的方法中,尺度空間的插值尤其重要,因為每一個組中第一層的尺度差異相對較大。圖2左圖給出了一個使用‘Fast-Hessian’檢測算子檢測得到興趣點的例子。
圖2 左邊:一幅太陽花圖片的興趣點檢測結果。這種場景很清楚的展示了基於Hessian矩陣的檢測方法的性質。中間:SURF使用的Haar小波類型。右邊:Graffiti場景中不同尺度下的描述窗口。
4 SURF描述算子
與其他描述算子相比,SIFT性能明顯更好[8]。它將粗略的位置信息(crudely localised information)與基於梯度分布的特征結合在一起,在去除由於尺度和空間變化造成的定位誤差時,能得到良好的獨特性。使用相對強度和梯度方向能減小光照度變化的影響。
本文提出的SURF描述算子基於相似的性質,但進一步降低復雜度。第一步是在興趣點周圍的一個圓形鄰域內,建立一個可重復確定的方向。然后基於該方向建立一個矩形區域,從中提取出SURF的描述算子。下面將依次介紹這兩個步驟。我們還提出了一個簡化版本的描述算子(U-SURF),它不具有旋轉不變性,因此計算速度更快,更加適用於照相機基本保持水平的場合。
4.1 方向確定(Orientation Assignment)
為了做到旋轉不變性,我們給興趣點定義一個可重復的主方向。為了達到這個目的,我們首先計算x和y方向的Haar小波響應,如圖2所示,這是在興趣點周圍半徑6s的圓形鄰域內進行的,s是該興趣點的尺度。采樣間隔也與尺度相關聯,選為s。同樣的,計算小波響應時也是和當前尺度有關,也被選為s。大尺度下小波的尺度也相應地增大。因此,我們又一次使用積分圖像以實現快速濾波。任何尺寸下只需要六步計算,就可得到x或y方向的小波響應。小波的邊長(side length)是4s。
計算出小波響應后,使用中心在興趣點的高斯函數()進行加權,響應用一個向量來表示,水平方向響應沿着橫坐標,垂直方向響應沿着縱坐標。主方向的確定方法是,計算一個60°角的旋轉扇形窗口內響應的總和。對窗口內水平和垂直方向的小波響應分別進行求和。這兩個加和響應構成一個新的向量。這種向量中最長的代表該興趣點的方向。滑動窗口的尺寸是一個參數,通過實驗的方法進行選擇。尺寸過小在單個主小波響應時會失敗,尺寸過大得到向量長度的最大值是不典型的。兩種情況下興趣區的方向都會不穩定。需要注意的是U-SURF省略了這個步驟。
4.2 描述分量(Deor Components)
為了得到描述向量,第一步是在興趣點周圍以其為中心建立一個矩形區域,方向沿着上文得到的興趣點的主方向。對於upright版本,這種轉換是不需要的。矩形區域的邊長是20s,圖2給出了這種矩形區域的例子。
把矩形區域規則地分解為4×4個小的子區域,子區域中保留重要的空間信息。對於每一個子區域,我們在規則的5×5的空間采樣點上計算一些簡單的特征。為簡單起見,用dx表示在水平方向的Haar小波響應,用dy表示垂直方向的響應(濾波器的尺寸是2s)。這里的水平和垂直是根據上文選擇的興趣點的主方向定義的。
為了增加對幾何變形和定位誤差的魯棒性,dx和dy首先會用一個中心在興趣點的高斯函數()進行加權。
然后,小波響應dx和dy在每一個子區域內進行加和,形成了特征向量的第一個集合。為了考慮圖像強度變化的極性(方向),我們也計算響應量的絕對值|dx|與|dy|的加和。因此,每一個子區域內用一個四維的描述向量v來描述其強度變化模式,。所有的4×4個子區域內的描述向量組合在一起構成了64維描述向量。小波響應對光照的變化(偏移)是不變的。將描述向量歸一化為單位向量可以實現對比度不變。
圖3給出了三種完全不同的圖像強度模式下,子區域內描述算子的特性。可以將這種局部的強度模式進行組合,得到各種特殊的描述算子。
圖3 幾種子區域描述算子的類型,代表基本的亮度模式的性質。左邊:表示區域內灰度值相近的情況,四個值都相對較低。中間:表示x方向的頻率變化,的值較大,其余的值都很小。右邊:x方向的強度逐漸增加,和的值都很大。
為了得到SURF的描述算子,我們實驗了使用較少和較多的小波特征的方法,如使用dx⊃2;和dy⊃2;,高階小波變換,PCA,中值,均值等等。通過全面的評估,發現上文給出的方法性能最好。然后我們又改變采樣點和子區域的數目。4×4的子區域分割方法被證實是最好的。因為更細小的划分會降低魯棒性,並且會顯著增加匹配的時間。另一方面,使用3×3的子區域得到的較低維的描述向量(SURF-36)性能較差,但是匹配的速度快,與文獻中其他的描述算子相比仍然是可接受的。圖4給出了一小部分比較結果(SURF-128在下文有簡單介紹)。
圖4 recall vs. 1-precision曲線圖,不同的binning方法及兩種不同的匹配技術,測試的圖像序列是‘Graffiti’(第1和第3幅圖),兩幅圖有30度的視角變化,與現有描述算子進行比較。這些興趣點都是使用我們的’Fast Henssian’檢測算子得到的。需要注意,興趣點不是仿射不變的,因此圖中的結果與[8]中的結果沒有可比性。SURF-128表示擴展版本的描述算子。左邊:基於相似度閾值的匹配技術,右邊:基於最近鄰比率的匹配策略(見第5部分)。
我們也測試了另一個版本的SURF描述算子,增加了一些與之前類似的特征(SURF-128)。它仍然使用了與之前相同的加和,但是進一步對這些加和進行分解。dx和|dx|的加和根據dy<0和dy≥0分成兩部分進行計算。類似的,dy和|dy|根據dx的符合分開進行加和,因此描述特征的數量加倍。這種描述算子獨特性更好,並且計算速度不會慢很多,但是因為維度的增加,匹配時速度會慢很多。
圖4中,基於標准的‘Graffiti’場景比較參數的選擇,‘Graffiti’是標准評估數據集Mikolajczyk[8]中最具挑戰性的場景,由於它包含了平面外的轉動、平面內的轉動以及亮度的變化。4×4子區域的擴展版本SURF-128表現最好。SURF性能好且計算速度更快,這兩方面都比現有的描述算子優秀。
在匹配階段為了快速索引,興趣點的Laplacian的符號(即Hessian矩陣的跡)可以考慮進來。通常興趣點在斑點狀的結構附近發現。Laplacian的符號可以區分亮的斑點暗的背景和它的相反情況(即暗的斑點亮的背景)。Laplacian的符號不需要花費額外的計算量,因為在檢測階段已經計算得到。在匹配階段,我們僅匹配具有相同類型對比度的特征(即Laplacian符號相同的特征點)。因此,這個簡單的信息可以加快匹配的速度,對算法的性能有稍微的提升。
5 實驗結果
首先我們給出基於一個標准數據集的實驗結果,來評估檢測和描述算子。然后討論應用於現實生活中物體識別的實驗結果。所有參與比較的檢測和描述算子都是作者之前實現的。
標准數據集 我們使用Mikolajczyk[1]提供的圖像序列和測試軟件,來測試自己的檢測和描述算子。這是一些有紋理和結構的現實場景的照片。由於篇幅的限制,我們不會介紹對所有圖像序列的實驗結果。對於檢測算子的比較,我們選擇兩個視角變化的序列(Graffiti和Wall),一個縮放和旋轉變化序列(Boat),光線變化序列(Leuven)(分析結果將在下文Fig.6中進行討論)。描述算子作用於除Bark外的所有序列(圖4和圖7)。
在評價檢測算子時,我們使用[9]中提出的可重復分數做為指標。這個指標的意義是,兩幅圖像中都能檢測到的興趣點的數目,與總共能檢測到的最少興趣點的數目的比值(只考慮在兩幅圖像中都可見的興趣點)。
作為比較的檢測算子包括Lowe[2]的高斯差分檢測算子(DoG)、Mikolajczyk[15]提出的Harris-Laplace和Hessian-Laplace算子。平均意義上來說,所有檢測算子檢測到的興趣點數目相當。這個結論適用於所用的圖像,包括在物體識別實驗中要到的數據庫中的圖像,表1給出一個示例。可以看出我們的Fast-Hessian檢測器計算速度比DOG快三倍,比Hessian-Laplace快5倍。同時,對Graffiti、Leuven和Boats圖像序列,我們檢測器的重復率與對比算法差不多,針對Wall圖像序列重復率甚至更好。需要注意的是Graffiti和Wall圖像序列,包括了平面外的旋轉,導致了仿射變形,然而參與比較的檢測算子都只具有旋轉和尺度不變性。因此,為了應對仿射變形,必須提高檢測算子整體的魯棒性。
表1 閾值,檢測到的興趣點的數目,檢測花費的計算時間(使用Graffiti場景的第一幅圖像,分辨率800×640)
描述算子用recall-(1-precision)曲線圖來評價,與文獻[4]和[8]類似。每次評價,我們使用圖像序列中的第1和第4幅圖像,但是有兩個例外:Graffiti序列使用第1和第3幅圖像,它們有30°的視角變化;Wall序列使用第1和第5幅圖像,它們有50°的視角變化。在圖4和圖7中,比較了我們的SURF描述算子與GLOH、SIFT、PCA-SIFT的性能差異,都是基於我們的‘Fast-Hessian’檢測算子得到的興趣點。幾乎在所有的比較中,SURF的表現都優於其他的描述算子。圖4給出了使用兩種不同匹配技術的比較結果,一個是基於相似度閾值,一個是基於最近鄰比率(這兩種的技術的介紹參見文獻[8])。匹配技術對檢測器優劣的排名沒有影響,SURF在兩種情形下都是最好的。由於篇幅的限制,僅在圖7中給出基於相似度閾值匹配技術的實驗結果,因為這種技術更加適合表達檢測算子在其特征空間的分布情況,並且使用的更加廣泛。
圖6 不同圖像序列的可重復率的分數,從左到右,從上到下,分別是Wall和Graffiti(視角變化),Leuven(亮度變化),Boat(縮放和旋轉)。
SUFT描述算子性能完全優於其他,有時對同樣精度的圖形進行檢索,甚至會有10%的性能提升。同時計算速度很快,如表2所示。第4部分介紹的精確版本的描述算子SURF-128,結果比常規的SURF效果稍好,但是匹配的速度要慢一些,因此在依賴計算速度的應用場景不太適用。
表2 檢測-描述花費的總時間,測試圖像是Graffiti序列的第一幅圖像。閾值是可自適應調整的,以保證所有方法檢測到的興趣點數目相同。表中的相對速度對其他圖像也具有代表性。
需要指出的是,整篇文章中,包括下文物體識別的實驗,我們都使用相同的參數和閾值(如表1所示)。文中給出的計算時間都是基於標准的Linux PC(Pentium IV,3GHz)。
圖7 Recall-(1-Precision)的曲線圖,從左到右,從上到下,分別是50度的視角變化(Wall),放大2倍(Boat),圖像模糊(Bikes和Trees),亮度變化(Leuven),JPEG壓縮(Ubc)。
物體識別 我們也在一個實際的應用場景下測試算法的特性,目標是在一個博物館里進行物體的識別。這個數據庫包含216幅照片,22個物體。這216幅照片在不同的條件下拍攝,包括極端的光照變化、物體位於反光玻璃罩內、視角變化、縮放、不同的相機質量等。此外,照片的尺寸較小(320×240),因此給識別增加了難度,因為丟失了很多細節。
為了在數據庫中進行物體識別,我們按照如下流程進行。測試集的圖像與參考集中所有圖像進行比較,比較它們各自的興趣點。參考數據集中與測試數據集,興趣點匹配數目最多的物體被認為是識別出來的物體。
匹配過程如下。測試數據集中的一個興趣點與參考數據集中的一個興趣點進行比較,計算它們描述向量的Euclidean距離。當它們之間的距離小於0.7倍的第二近的距離時,認為檢測出一個匹配對。這就是最近鄰比率匹配策略[18,2,7]。很顯然,附加的幾何約束可以減小錯誤的正向匹配的影響,並且可以用於在任何的匹配策略。然而對比較問題而言,幾何約束沒有意義,因為可能會掩蓋掉基礎算法的某些缺陷。平均識別率反映了算法性能比較的結果。表現最好的是SURF-128,識別率為85.7%;然后是U-SURF(83.8%),SURF(82.6%)。其他的描述算子識別率分別為78.3%(GLOH),78.1%(SIFT),72.3%(PCA-SIFT)。
圖5 給出一個例子,左側是參考圖像,右側是測試圖像,注意觀察兩者在視角和顏色上的不同。
6 結論
本文提出了一種快速且性能良好的興趣點檢測和描述算法,在計算速度和准確性方面都優於目前存在的算法。描述算子很容易擴展為仿射不變性。接下來的工作是優化代碼,進一步提高運算速度。最新的版本可在網上找到[1]。
參考文獻
(藍色區域滑動瀏覽全部文獻)
1. Lindeberg, T.: Feature detection with automatic scale selection. IJCV 30(2)
(1998) 79 – 116
2. Lowe, D.: Distinctive image features from scale-invariant keypoints, cascade filter-
ing approach. IJCV 60 (2004) 91 – 110
3. Mikolajczyk, K., Schmid, C.: An affine invariant interest point detector. In: ECCV.
(2002) 128 – 142
4. Ke, Y., Sukthankar, R.: PCA-SIFT: A more distinctive representation for local
image deors. In: CVPR (2). (2004) 506 – 513
5. Tuytelaars, T., Van Gool, L.: Wide baseline stereo based on local, affinely invariant
regions. In: BMVC. (2000) 412 – 422
6. Matas, J., Chum, O., M., U., Pajdla, T.: Robust wide baseline stereo from maxi-
mally stable extremal regions. In: BMVC. (2002) 384 – 393
7. Mikolajczyk, K., Schmid, C.: A performance evaluation of local deors. In:
CVPR. Volume 2. (2003) 257 – 263
8. Mikolajczyk, K., Schmid, C.: A performance evaluation of local deors. PAMI
27 (2005) 1615–1630
9. Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffal-
itzky, F., Kadir, T., Van Gool, L.: A comparison of affine region detectors. IJCV
65 (2005) 43–72
10. Harris, C., Stephens, M.: A combined corner and edge detector. In: Proceedings
of the Alvey Vision Conference. (1988) 147 – 151
11. Mikolajczyk, K., Schmid, C.: Indexing based on scale invariant interest points. In:
ICCV. Volume 1. (2001) 525 – 531
12. Lowe, D.: Object recognition from local scale-invariant features. In: ICCV. (1999)
13. Kadir, T., Brady, M.: Scale, saliency and image deion. IJCV 45(2) (2001)
83 – 105
14. Jurie, F., Schmid, C.: Scale-invariant shape features for recognition of object
categories. In: CVPR. Volume II. (2004) 90 – 96
15. Mikolajczyk, K., Schmid, C.: Scale and affine invariant interest point detectors.
IJCV 60 (2004) 63 – 86
16. Florack, L.M.J., Haar Romeny, B.M.t., Koenderink, J.J., Viergever, M.A.: General
intensity transformations and differential invariants. JMIV 4 (1994) 171–187
17. Mindru, F., Tuytelaars, T., Van Gool, L., Moons, T.: Moment invariants for recog-
nition under changing viewpoint and illumination. CVIU 94 (2004) 3–27
18. Baumberg, A.: Reliable feature matching across widely separated views. In: CVPR.
(2000) 774 – 781
19. Schaffalitzky, F., Zisserman, A.: Multi-view matching for unordered image sets, or
“How do I organize my holiday snaps?”. In: ECCV. Volume 1. (2002) 414 – 431
20. Freeman, W.T., Adelson, E.H.: The design and use of steerable filters. PAMI 13
(1991) 891 – 906
21. Carneiro, G., Jepson, A.: Multi-scale phase-based local features. In: CVPR (1).
(2003) 736 – 743
22. Se, S., Ng, H., Jasiobedzki, P., Moyung, T.: Vision based modeling and localiza-
tion for planetary exploration rovers. Proceedings of International Astronautical
Congress (2004)
23. Viola, P., Jones, M.: Rapid object detection using a boosted cascade of simple
features. In: CVPR (1). (2001) 511 – 518
24. Koenderink, J.: The structure of images. Biological Cybernetics 50 (1984) 363 –
370
25. Lindeberg, T.: Discrete Scale-Space Theory and the Scale-Space Primal Sketch,
PhD, KTH Stockholm,. KTH (1991)
26. Lindeberg, T., Bretzner, L.: Real-time scale selection in hybrid multi-scale repre-
sentations. In: Scale-Space. (2003) 148–163
27. Brown, M., Lowe, D.: Invariant features from interest point groups. In: BMVC.
(2002)