現有局部描述子的性能評估
Krystian Mikolajczyk Cordelia Schmid
計算機科學系 法國國立計算機與自動化研究所
牛津大學 羅納-阿爾卑斯大區歐洲655大道
OX13PJ Montbonnot 38330
英國 法國
km@robots.ox.ac.uk schmid@inrialpes.fr
摘要
本文中,我們對比了計算局部興趣區域的描述子,如用Harris仿射變換探測器提取[32]。文獻中提出了很多不同的描述子。然而,究竟哪種描述子更合適,不同興趣區域探測器的性能如何並不清晰。描述子應該是鮮明的同時對可見條件的變化和探測器的誤差要有一定的魯棒性。本評估作為關於精度召回(recall)的使用標准,並在不同的圖像變換中進行了實現。我們對比了形狀上下文(context)[3],可操縱的濾波器[12],PCA-SIFT[19],微分不變性[20],旋轉(spin)圖像[21],SIFT[26],復雜濾波器[37],矩(moment)不變量[43]和不同類型興趣區域的互相關性。我們還提出了一種SIFT描述子的擴展,結果表明它比原始方法效果要好。此外,我們觀察到描述子的等級與興趣區域探測器在多數情況下是獨立的,基於SIFT的描述子表現最好。矩濾波器和可操縱濾波器在低維描述子中表現最優。
關鍵詞:
局部描述子,興趣點,興趣區域,不變性,匹配,識別
1. 引言
計算興趣區域的局部測光描述子被證明在諸如寬基線匹配[37,42],目標識別[10,25],紋理識別[21],圖像檢索[29,38],機器人定位[40],影像數據采礦[41],全景建立[4]和目標目錄識別[8,9,22,35]等應用中非常出色。它們無需分割,並在遮擋下具有鮮明性。最近的工作主要是研究使這些描述子對圖像轉換具有不變性。這種方法是為了發現一類轉換下的圖像區域的協變量(covariant),這種協變量是用來支持計算不變量描述子的區域。
給出了不變量區域探測器,剩下的問題就是確定哪種描述子是最適合用來描繪該區域特征的,並依據區域探測器來選擇出描述子。有大量可能的描述子和相關的距離測量方法,它們分別針對不同的圖像屬性,如像素強度,顏色,紋理,邊緣等。在本次工作中,我們關注的是基於圖像灰度值計算的描述子。
描述子的評估工作是在不同觀察條件下對同一場景或目標進行匹配和識別得到的。我們選擇了很多種之前在相關文章中性能良好的描述子,使用相同的方案和測試數據對比它們。評估標准是召回精度,如兩幅圖像中正確和錯誤的匹配數。另一種評估標准是從數據庫中檢索的圖像上下文的ROC(接收機操作特性)[6,31]。探測率等於召回數,但誤判率是由圖像數據庫計算得出而不是單個圖像對。因此,預計一對相似圖像實際的錯誤匹配很困難。
過去使用局部特征來識別和分類目標目錄也是很成功的。本文中的描述子對比要使用一種不同的評估計划。然而,由於沒有在一個目錄內相關圖像的線性轉換,因此,對於怎樣給一個目標目錄選擇具有代表性的圖像集以及怎樣准備地面真值仍不明確。一個可能的方案就是手動地選擇一些對應點,並使用寬松的限制來驗證正確匹配,如[18]中提出的。
本文中,實現了不同描述子,不同興趣區域和不同匹配方法的對比。與我們之前的工作[31]相比,本文實現了更多更徹底的評估並介紹了一種新描述子。對比中加入了一些描述子和探測器,數據集包括大量場景類型和變換。我們改良了評估標准,現在使用的是對圖像對的召回精度。等級最高的描述子和基於ROC方法的評估[31]相同。此外,我們的新描述子梯度位置和方向直方圖(GLOH)是SIFT描述子的一個擴展,實驗表明,比SIFT和其它描述子性能更佳。
A. 相關工作
性能評估在計算機視覺中有着越來越重要的地位[7]。在匹配和識別領域,一些作者評估了興趣點探測器[14,30,33,39]。性能是由重復率評估的,這是同時出現在兩幅圖像中的點的百分率。兩幅圖像中的重復率越高,可能被匹配的點數就越多,而匹配和識別的結果就越好。
在匹配和識別的文章中,對局部描述子的評估的研究很少。Carneiro和Jepson[6]使用ROC(接收機操作特性)評估了點描述子的性能。他們成他們的基於相位的描述子性能優於微分不變量。在他們的對比中,使用Harris探測器探測興趣點,並人工進行圖像轉換。最近,Ke和Sukthankar[19]研制了一種與SIFT相類似的探測器。它對歸一化圖像梯度碎片(patch)應用主成分分析(PCA),較人工生成數據的SIFT描述子性能更優。召回精度標准和圖像對被用來比較描述子。
局部描述子(也叫濾波器)還被用來評估上下文紋理分類。Randen和Husoy[36]用一個紋理分類對比了不同的濾波器。本文中的濾波器評估是Laws面具(mask),Gabor濾波器,小波變換,DCT,特征濾波器,線性預測器和小波優化有限脈沖響應濾波器。沒有一種方法被證實是最優的。分類錯誤主要來於紋理類型和描述子維數。Gabor濾波器在多數情況下優於其它濾波器。Varma和Zisserman[44]也比較了紋理分類的不同濾波器,結果表明MRF比基於高斯的濾波器組性能更好。Lazebnik等人[21]提出了一種新的稱為“旋轉圖像”不變性描述子,並將其與Gabor濾波器進行了紋理分類上下文的對比。他們稱基於區域的旋轉圖像較基於點的Gabor濾波器性能更好。然而,紋理描述子和紋理分類的結果不能直接調換(transpose)為區域描述子。區域中常常包含一個沒有重復模式的單一結構,而在紋理描述子中頻繁探索(explored)的統計依賴性不能用於本環境(context)。
B. 綜述
在第二章中,我們呈現了局部描述子的藝術聲明(state)。第三章闡述了我們對比和我們的評估標准已經數據集中的探測器和描述子的實現細節。第四章中,我們顯示了實驗結果。最后,我們對結果進行了討論。
2. 描述子
已經有了很多不同的描述局部圖像區域的技術。最簡單的描述子就是圖像像素矢量。互相關可被用來計算兩個描述子之間的相似分數。然而,這些描述的高維數導致了識別工作較高的計算復雜性。因此,這個技術主要用於尋找兩幅圖像中的一致性。請注意,區域可以通過二次采樣來降低維數。最近,Ke和Sukthankar[19]提出使用圖像梯度補丁並應用PCA來降低描述子的大小。
基於分布的描述子。這些技術使用直方圖來代表不同的外觀特征或形狀特征。一個簡單的描述子是用直方圖代表的像素強度的分布。Johnson和Hebert[17]在一定范圍數據的上下文中進行三維目標識別中介紹了一個更加有表達力的描述。他們的代表(旋轉圖像)是三維興趣點相鄰的相關位置處的直方圖。這個描述子最近被使用於圖像[21]。直方圖的兩個維度分別是到中心點的距離和強度值。
Zabih和Woodfill[45]研發了一種對光照變化具有魯棒性的方法。它依賴於像素強度間的相互關系(reciprocal)和順序的直方圖,這比原(raw)像素強度魯棒性更強。幾個相鄰像素間強度的二值關系被二值串和所有直方圖代表的可能的組合的分布編譯。這個描述子適用於紋理表現,但要建立一個可靠描述子要求的維度很大[34]。
Lowe[25]提出了一種尺度不變的特征轉換方法(SIFT),組合了一個尺度不變的區域探測器和基於探測區域梯度分布的描述子。描述子由一個三維的梯度位置和方向的直方圖代表,闡述見圖1。位置和方向箱的貢獻由梯度量級來定權。梯度位置和方向的分層使得描述子對小的幾何畸變和小的區域探測誤差具有魯棒性。幾何直方圖[1]和形狀上下文[3]實現的是相同的理念,與SIFT描述子非常相似。兩種方法都計算了位置和各角點方向的直方圖,其中各角點對直方圖具有一樣的貢獻。這些描述子被成功的使用,比如說,對於角為可信賴特征的圖畫(drawings)的形狀識別。
空間域頻率域技術。很多技術描述了一個圖像的頻率容量(content)。傅里葉轉換把圖像內容分解為基本的方程。然而,在這個表征中,點之間的表征關系並不明確,基礎方程是無限的,因此很難適應與局部方法。Gabor的變換克服了這些問題,但是大量的Gabor濾波要求獲取頻率和方向中的微小變化。Gabor濾波和小波[27]在紋理上下文分類中被頻繁地探測。
微分描述子。一組圖像導數是由給出的順序估計點的近鄰的計算得出的。Koenderink調查了局部導數(局部噴口(jet))的屬性[20]。Florack等人[11]導出了微分不變量,將局部噴口的成分組合來獲取旋轉不變量。Freeman和Adelson[12]開發了可操縱的濾波,可以對給出局部噴口成分的某一特定方向進行導數操縱。在梯度方向操縱導數使得它們對旋轉具有不變性。一個穩定的導數估計是由與高斯求導做卷積得到的。圖2(a)為高斯求至四階導。
Baumberg[2]和Schaffalitzky和Zisserman[37]提出用族中導出的復雜濾波,其中θ是方向。對於公式f(x,y),Baumberg使用高斯導數而Schaffalitzky和Zisserman應用了一個多項式(cf.第三章B和圖2(b))。這些濾波與在濾波響應空間的線性相關變化得到的高斯導數不同。
其它技術。Van Gool等人[43]介紹了廣義矩不變量,用來闡述圖像數據的多光譜本質。不變量包括由定義的中心矩,其中階數為p+q,度數(degree)a。矩描述了形狀和強度在區域Ω內的貢獻的特征。它們獨立並且可以在任意階數和度數被簡單的計算。然而,高階數和度數對小的幾何和測光變形敏感。計算不變量減少了維數。這些描述子因此更加適合彩色圖像,可以計算每個色彩通道和通道之間的不變量。
3. 實驗裝置
A. 支持區域
B. 描述子
C. 性能評估
4. 實驗結果
- A. 仿射變換
- B. 尺度變化
- C. 圖像旋轉
- D. 圖像模糊
- E. JPEG壓縮
- F. 光照變化
- G. 匹配實例
這一部分表明
表2展示的是撤銷(recall)
圖13. 匹配實例。這有400個最近鄰匹配
5. 討論與總結
本文中,
在多數試驗中,
最好的低維描述子是
互相關給出了不穩定的結果。
由Hessian-Laplace和Hessian仿射變換
描述子的等級與不同的匹配策略相似。
很明顯,
相似的實驗應
感謝
這項研究
參考文獻
[1] A.Ashbrook, N.Thacker, P. Rockett, and C.Brown. Robust recognition of scaled shapes using pairwise geometric histograms. In D.Pycock, editor, Proceedings of the sixth British Machine Vision Conference, Birmingham, UK, pages503-512,1995.
[2] A.Baumberg. Reliable feature matching across widely separated views. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Hilton Head Island, South Carolina, USA, pages774-781,2000.
[3] S.Belongie, J. Malik, and J. Puzicha. Shape matching and object recognition using shape contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(4):509-522,2002.
[4] M.Brown and D.Lowe. Recognising panoramas. In Proceedings of the 9th International Conference on Computer Vision, Nice, France, pages 1218-1227,2003.
[5] J. Canny. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 8(6):679-698,1986.
[6] G.Carneiro and A.D.Jepson. Phase-based local features. In Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, pages282-296,2002.
[7] H.I. Christensen and P.J.Phillips, editors. Empirical Evaluation Methods in Computer Vision, volume 50 of Series in Machine Perception and Artificial Intelligence. World Scientific Publishing Co.,2002.
[8] G.Dorko and C.Schmid. Selection of scale-invariant parts for object class recognition. In Proceedings of the 9th International Conference on Computer Vision, Nice, France, pages634-640,2003.
[9] R.Fergus, P.Perona, and A.Zisserman. Object class recognition by unsupervised scale-invariant learning. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages 264-271,2003.
[10] V. Ferrari, T.Tuytelaars, and L.Van Gool. Simultaneous object recognition and segmentation by image exploration. In Proceedings of the 8th European Conference on Computer Vision, Prague, Tcheque Republic, pages 40-54,2004.
[11] L.Florack, B.ter Haar Romeny, J.Koenderink, and M.Viergever. General intensity transformations and second order invariants. In Proceedings of the 7th Scandinavian Conference on Image Analysis, Aalborg, Denmark, pages 338-345,1991.
[12] W.Freeman and E.Adelson. The design and use of steerable filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(9): 891-906, 1991.
[13] D.Gabor. Theory of communication. Journal I.E.E., 3(93):429-457,1946.
[14] V.Gouet, P.Montesinos, R.Deriche, and D.Pelé. Evaluation de détecteurs de points d'intérêt pour la couleur. In 12ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Artificielle, pages 257-266,2000.
[15] C.Harris and M.Stephens. A combined corner and edge detector. In Alvey Vision Conference, pages147-151,1988.
[16] R.Hartley and A.Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press,2000.
[17] A.Johnson and M.Hebert. Object recognition by matching oriented points. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Puerto Rico, USA, pages684-689,1997.
[18] T.Kadir, M.Brady, and A.Zisserman. An affine invariant method for selecting salient regions in images. In Proceedings of the 8th European Conference on Computer Vision, Prague, Tcheque Republic, pages 345-457, 2004.
[19] Y.Ke and R.Sukthankar. PCA-SIFT: A more distinctive representation for local image descriptors. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Washington, USA, pages511-517,2004.
[20] J.Koenderink and A.van Doorn. Representation of local geometry in the visual system. Biological Cybernetics, 55:367-375,1987.
[21] S.Lazebnik, C.Schmid, and J.Ponce. Sparse texture representation using affine-invariant neighborhoods. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages 319-324,2003.
[22] B.Leibe and B.Schiele. Interleaved Object Categorization and Segmentation. In Proceedings of the 14th British Machine Vision Conference, Norwich, UK, pages759-768,2003.
[23] T. Lindeberg. Feature detection with automatic scale selection. International Journal of Computer Vision,30(2):79-116,1998.
[24] T.Lindeberg and J.Garding. Shape-adapted smoothing in estimation of 3-D shape cues from affine deformations of local 2-D brightness structure. Image and Vision Computing, 15(6):415-434,1997.
[25] D.Lowe. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision,2(60):91-110,2004.
[26] D.G.Lowe. Object recognition from local scale-invariant features. In Proceedings of the 7th International Conference on Computer Vision, Kerkyra, Greece, pages 1150-1157,1999.
[27] J.K.M.Vetterli. Wavelets and Subband Coding. Prentice Hall,1995.
[28] J. Matas, O.Chum, M.Urban, and T.Pajdla. Robust wide baseline stereo from maximally stable extremal regions. In Proceedings of the 13th British Machine Vision Conference, Cardiff, UK, pages 384-393,2002.
[29] K.Mikolajczyk and C.Schmid. Indexing based on scale invariant interest points. In Proceedings of the 8th International Conference on Computer Vision, Vancouver, Canada, pages525-531,2001.
[30] K.Mikolajczyk and C.Schmid. An affine invariant interest point detector. In Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, pages128-142,2002.
[31] K.Mikolajczyk and C.Schmid. A performance evaluation of local descriptors. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages257-264,2003.
[32] K.Mikolajczyk and C.Schmid. Scale & affine invariant interest point detectors. International Journal of Computer Vision, 1(60):63–86,2004.
[33] K.Mikolajczyk, T.Tuytelaars, C.Schmid, A.Zisserman, J.Matas, F.Schaffalitzky, T.Kadir, and L.V.Gool. A comparison of affine region detectors. Submitted to International Journal of Computer Vision.
[34] T.Ojala, M.Pietikainen, and T.Maenpaa. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(7): 971-987,2002.
[35] A.Opelt, M.Fussenegger, A.Pinz, and P.Auer. Weak hypotheses and boosting for generic object detection and recognition. In Proceedings of the 8th European Conference on Computer Vision, Prague, Tcheque Republic, pages 71-84,2004.
[36] T.Randen and J.H.Husoy. Filtering for texture classification: A comparative study. IEEE Transactions on Pattern Analysis and Machine Intelligence, 21(4):291–310,1999.
[37] F.Schaffalitzky and A.Zisserman. Multi-view matching for unordered image sets. In Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, pages414–431,2002.
[38] C.Schmid and R.Mohr. Local grayvalue invariants for image retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(5): 530-534,1997.
[39] C.Schmid, R.Mohr, and C.Bauckhage. Evaluation of interest point detectors. International Journal of Computer Vision, 37(2):151–172,2000.
[40] S.Se, D.Lowe, and J.Little. Global localization using distinctive visual features. In International Conference on Intelligent Robots and Systems,IROS2002,Lausanne, Switzerland, pages226-231,2002.
[41] J.Sivic and A.Zisserman. Video google: A text retrieval approach to object matching in videos. In Proceedings of the 9th International Conference on Computer Vision, Nice, France. pages1470-1478,2003.
[42] T.Tuytelaars and L.Van Gool. Matching widely separated views based on affine invariant regions. International Journal of Computer Vision, 1(59): 61-85,2004.
[43] L.Van Gool, T.Moons, and D.Ungureanu. Affine/ photometric invariants for planar intensity patterns. In Proceedings of the 4th European Conference on Computer Vision, Cambridge, UK, pages642-651,1996.
[44] M.Varma and A.Zisserman. Texture classification: Are filter banks necessary? In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages477–484,2003.
[45] R.Zabih and J. Woodll. Non-parametric local transforms for computing visual correspondence. In Proceedings of the 3rd European Conference on Computer Vision, Stockholm, Sweden, pages151-158,1994