從尺度不變的關鍵點選擇可區分的圖像特征
David G.Lowe
溫哥華不列顛哥倫比亞省加拿大英屬哥倫比亞大學計算機科學系
2003年1月10日接受,2004年1月7日修改,2004年1月22日采用
摘要:本文提出了一種從圖像中提取獨特不變特征的方法,可用於完成不同視角之間目標或場景的可靠匹配的方法。這種特點對圖像的尺度和旋轉具有不變性。並跨越很大范圍的對仿射變換,三維視點的變化,添加的噪音和光照變化的圖像匹配具有魯棒性。特征是非常鮮明的,場景中的一個單一特征和一個許多圖像的大型特征數據庫也有很高的概率進行正確匹配。本文還介紹了一個使用該功能來識別目標的方法。通過將個別特征與由已知目標特征組成的數據庫進行快速最近鄰算法的匹配,然后使用Hough變換來識別屬於單一目標的聚類(clusters),最后通過最小二乘解執行一致的姿態參數的核查確認。這種識別方法可以在有力確定對象之間的聚類和遮擋的同時實現近實時性能。
關鍵詞:不變特征,目標識別,尺度不變性,圖像匹配
1. 引言
圖像匹配是計算機視覺領域中很多問題的關鍵,包括目標和場景識別、多幅影像進行三維構建、立體對應(correspondence)、運動追蹤等。本文描述的圖像特征很實用,因為它具備很多可以將一個目標或場景的不同影像進行匹配的特性。這些特征對於圖像尺度和旋轉具有不變性,並在光照變化和三維相機視點變化的情況下具有部分的不變性。它在空間域和頻率域都可以很好地定位,減少了遮擋(occlusion)、聚類和噪音的影響。有了有效的算法,海量的特征就可以從典型的圖像中提取出來。另外,這些特征是非常鮮明的,使一個單一特征可以無誤地與大型數據庫中的特征進行匹配,為目標和場景識別提供了基礎。
通過一個層疊的過濾算法將提取這些特征的代價最小化,這樣,最昂貴的運算僅在最初測試通過處。下面是生成圖像特征集計算的一些主要步驟:
1) 尺度空間極值探測:第一階段對整個尺度和圖像位置進行搜索。通過使用高斯差分函數來有效地識別對於尺度和方向具有不變性的可能的興趣點。
2) 關鍵點定位:在每一個候選區,都可以確定一個詳細模型的位置和尺度。基於關鍵點的穩定性進行選擇。
3) 定向任務:基於局部圖像的梯度方向,給每個關鍵點指定一個或多個方向。所有隨后的圖像數據操作都是將每個特征的方向、尺度和位置進行相關變換得到的,因此這些變換具有不變性。
4) 關鍵點描述子:局部梯度是在每個關鍵點附近的區域所選尺度上測量得到的。這些可以轉化成為一個允許顯著的局部形狀變化和光照變化的表示法。
這種方法被命名為尺度不變的特征轉換法(SIFT),因為它可以基於局部特征把圖像數據轉換到尺度不變的坐標上。
該方法的一個重要方面是它生成了大量特征,它們密集的覆蓋了整個圖像尺度和位置。一幅500*500像素的典型圖片可以產生約2000個穩定的特征(這個數字依賴於圖像內容和幾個參數的選擇)。特征的數量對目標識別尤為重要,要具備探測雜亂背景下的小目標的能力,要求每個目標至少有三個特征被正確匹配才是可靠的識別。
對於圖像匹配和識別,SIFT特征被第一個從一組參考圖像中提取並存儲在數據庫中。一個新的圖像通過將這幅新圖像中的各個特征與原有數據庫進行一一對比並基於歐氏距離找到候選的匹配特征。本文將討論可以在大型數據庫中快速執行的快速近鄰算法。
關鍵點描述子是非常鮮明的,可以使單個特征在大型特征數據庫中以很大概率進行正確匹配。然而,在雜亂的圖像中,很多背景中的特征不能與數據庫進行正確匹配,產生了很多錯誤的配對。通過確定與新圖像在目標、目標的位置、尺度和定向一致的關鍵點的子集,可以將正確的匹配從匹配的全集中過濾出來。多種功能恰好與這些參數一致的可能性比任一個特征匹配錯誤的可能性要小很多。確定這些一致的聚類,可以通過一個高效的廣義Hough變換的散列表快速執行。
每個擁有三個及三個以上特征與目標一致的聚類,它們的姿態都要進行下一步更精細的確認。首先,最小二乘估計是用於目標姿態的仿射近似。其他已識別的與此姿態相一致的圖像特征以及異常值都忽略不計。最后,通過一個精細的計算可以得出一組可以表明目標存在的詳細特征,並給出符合的准確度和可能的錯誤匹配數。經過所有的這些實驗,可以得出這個結論:目標匹配的成功率很高。
2. 相關研究
使用一組局部興趣點來進行圖像匹配的發展可以追溯到1981年Moravec在立體匹配中使用的角探測器。Moravec的探測器在1988年被Harris和Stephens改進,在小的圖像變動和近邊緣區域具有了更高的重復性。Harris還展示了它在高效運動追蹤和由運動恢復進行三維建模中的價值(Harris,1992),Harris的角探測器自此在很多其他的圖像匹配工作中被廣泛的使用。盡管這個特征探測器被稱為角探測器,但它並不是只能選擇角,而是可以在一個確定尺度的各個方向上選擇所有具有大的梯度的圖像位置。
該方法的最初應用是立體或短距離運動追蹤,而后來被擴展到解決一些更困難的問題。Zhang等人在1995年在每個角的周圍使用相關窗口來選擇可能的匹配,使得Harris的角進行大幅圖像范圍的匹配成為可能。計算精確場景中兩個視角間的幾何約束的基礎矩陣,移除異常值,同時移除那些與多數方法不一致的配對。同年(1995),Torr研發了一種類似的方法來進行大間距的運動匹配,使用幾何約束來移除圖像中移動剛體的異常值。
1997年,Schmid和Mohr的開創性工作展示了不變的局部特征匹配可以被擴展到解決一般的圖像識別問題,即使用一個特征與大型圖像數據庫進行匹配。他們還使用Harris角探測器來選擇興趣點,但他們使用的是一個圖像局部區域的旋轉不變的描述子來代替相關窗口。這是特征可以在兩幅圖像之間進行任意方向變化時進行匹配。此外,他們還證明多特征匹配可以通過識別一致的匹配特征聚類,在遮擋和混雜的情況下完成一般的識別工作。
Harris角探測器對圖像尺度的變化非常敏感。因此,對於不同尺度的圖像匹配,Harris的角反射器並不能提供很好的基礎。本文作者(Lowe)在1999年的早期工作中擴展了這種局部特征方法來實現尺度不變性。這個工作還闡述了一種新的局部描述子,可以降低對局部圖像變形的敏感度(如三維視點的變換),同時找到更加鮮明的特征。本文提出了對這一方法更加深入的研發,並分析了這些早期的工作,在穩定性和特征不變性上進行了大量改進。
在之前的研究中,關於在尺度變換下表征(representation)的穩定識別占了很大的篇幅。最早在這個領域進行研究的有Crowley和Parker,1984年,他們在尺度空間發現了一種表征可以識別峰和脊,並把它們與樹結構聯系起來。然后,就可以在任意尺度變換的圖像間進行樹結構的匹配。在近期基於圖像匹配的工作中,Shokoufandeh等人在1999年使用小波系數提出了一種更加鮮明的特征描述子。Lindeberg在1993-1994年對為特征探測識別一個合適並且一致的尺度這一問題進行了深入研究。他稱之為尺度選擇問題,我們在下面使用了這一結論。
最近,有了大量令人印象深刻的將局部特征擴展為全局仿射變換不變量的工作(Baumberg,2000;Tuytelaars和Van Gool,2000;Mikolajczyk和Schmid,2002;Schaffalitzky和Zisserman,2002;Brown和Lowe,2002)。這使得在變化的正射三維投影平面上的特征匹配具備了不變性,多數情況下采用對圖像局部仿射框架進行重采樣的方法。然而,還沒有一個方法實現了完全的仿射不變性,由於充分勘探仿射空間的成本過高,因此他們用一個非仿射不變的方式對最初特征、尺度和位置進行選擇。仿射框架與尺度不變的特征相比,對噪音更加敏感,因此,實踐中除非在仿射變形與平面傾斜程度大於40度時(Mikolajczyk,2002),仿射特征比尺度不變的特征重復率要低。對於很多應用,更寬的仿射不變性可能並不重要,因為為了獲得三維目標的非平面變化和遮擋的影響,瞄准視角至少每30度旋轉一下視點(也就是說對於最靠近的瞄准視角,識別也是在15度以內進行的)。
盡管本文中的方法不具備完全的仿射不變性,但它使用了一種獨特的方法來使局部描述子可以隨着描述子很小的變化來顯著地改變相關特征的位置。這種方法不僅使描述子可以在相當大范圍的仿射變形時進行可靠地匹配,還可以使特征在非平面的三維視點變化時具有更好的魯棒性。另一個優點是它可以提取出更多的有效特征,並可以識別大量特征。另一方面,在非常大尺度的視角變化下,仿射不變性是匹配平面非常有價值的屬性,以后的研究應該在一個有效穩定的方式下,將這一點與非平面的三維視點不變性很好地結合的條件下開展。
還有許多其他的被推薦進行識別的特征類型,有的可以用於協助本文所述方法在不同環境中進行進一步的匹配工作。其中一種是利用圖像輪廓或區域邊緣的特征,可被用來減少目標邊界附近的聚類背景所帶來的干擾。Matas等人在2002年稱他們的最大穩定極端區域可以產生大量具有良好穩定性的匹配特征。Mikolajczyk等人在2003年使用局部邊緣(edge)而忽略附近的無關邊緣,發現了一種新的描述子,即使在重疊背景聚類上狹窄形狀的邊界附近也可以在尋找穩定的特征。Nelson和Selinger在1998年使用基於圖像輪廓分組的局部特征得到了很好的結果。類似的,Pope和Lowe在2000年使用的是基於圖像輪廓的等級分類的特征,尤其是對於缺少詳盡紋理的目標非常有用。
對於視覺識別的研究歷史包括致力於不同的可被用作特征測量的其他圖像屬性數集的工作。Carneiro和Jepson在2002年描述了一種基於相位的局部特征,它們用相位來表示而不是局部空間頻率的量級,這種方法更有利於光照不變量的提高。Schiele和Crowley在2000年建議使用多維直方圖來概括圖像區域內的測量值的分布。這種特征對於紋理明顯的形狀畸變的目標尤為有效。Basri和Jacobs在1997年證明了提取局部區域邊界對於識別的價值。其他可以吸納的有用屬性有諸如顏色、運動、圖形背景識別、區域形狀描述子和立體景深提示等。當有對魯棒性有提高的可以增強匹配成功率的新特征類型時,只要它們的計算成本對其他特征的影響較小,都可以簡單地被局部特征方法采納作為額外的特征。因此,以后的系統可能會由很多特征類型組合而成。
3. 尺度空間極值的發現
引言中已經提到了,我們使用一種高效的先識別候選位置然后進一步確認的層疊過濾方法來探測關鍵點。關鍵點探測的第一步是識別同一目標在不同視角下可被重復分配的位置和尺度。使用被稱為尺度空間的尺度連續函數,通過搜索對所有尺度的穩定特征進行搜索,可以完成對圖像尺度變換具有不變性的位置探測。(Witkin,1983)。
Koenderink和Lindeberg分別在1984年和1994年提出經過一系列合理的假設,尺度空間唯一可行的核就是高斯函數。因此,被定義為一幅圖像尺度空間函數的L(x,y,σ)是由尺度可變的高斯函數G(x,y,σ)和輸入圖像I(x,y)的卷積產生:其中*為x和y之間的卷積運算。而
為了在尺度空間中高效地探測出穩定的關鍵點位置,我們假設(Lowe,1999)使用尺度空間在高斯差分中的極值與圖像卷積。可以計算得到兩個相鄰的由常數乘系數k分離的尺度的差值:
有很多選擇這個函數的理由。首先,這是一個高效計算的函數,因為平滑圖像L需要計算尺度空間特征描述的任何情況,而D只需計算簡單的圖像減法。
另外,Lindeberg於1994年研究表明,高斯差分函數可以提供高斯拉普拉斯的尺度規范化解得近似值
。Lindeberg展示了拉普拉斯在真實尺度不變性所要求的
因素下的標准化。在更加精細的實驗對比中,Mikolajczyk於2002年發現,與其他可能的圖像函數如梯度法、Hessian法和Harris角函數相比,
的最大值和最小值產生了最穩定的圖像特征。
D和的關系可以從熱擴散公式來理解(參數以σ而不是常見的
形式):
由此,我們可以看出可以用在兩個相鄰的尺度kσ,σ求解最終的差分近似為
:
因此,
這表明,當高斯差分函數的尺度被常系數區分開后,它就包含了拉普拉斯尺度不變性要求的尺度標准化。等式中的系數(k-1)是所有尺度的常數,因此不影響極值的位置。K越接近1,估計誤差就越趨向於0,但是實踐中我們發現估值對極值探測的穩定性和即使是最顯著的尺度差距的定位,如
幾乎沒有影響。
構建D(x,y,σ)的有效方法如圖1所示。初始圖像與高斯函數遞增地卷積形成圖像,通過尺度空間的常系數k被分開,如左圖的堆放的層。我們將尺度空間中的每個組(如σ的兩倍)分為整數,間距為s,所以。我們必須在每個組的堆中建立s+3幅模糊的圖像才能完成覆蓋全部組的極值探測。臨近的圖像尺度相減便產生了高斯差分圖像,如右圖所示。一旦完成了所有組的處理,我們就用σ代替初始值2σ(頂層的堆中會產生2幅圖像)以每行每列的第二個像素對高斯圖像進行重采樣。相對於σ,采樣的精度與第一個組沒有差別,但計算量被很大程度上地降低了。
圖1. 對於每個尺度空間的組,初始圖像與高斯函數多次卷積所得尺度空間如圖像左邊所示。相鄰的高斯圖像相減產生了右邊的差分高斯圖像。每個組后,高斯圖像被降采樣2倍,重復該過程。
3.1 局部機制探測
為了探測到D(x,y,σ)的局部最大值和最小值,每個樣本點都要和它當前圖像的八個近鄰已經上下尺度上的各九個近鄰相比較(如圖2)。只有在它比所有近鄰大或者小時才會被選擇。因為在前幾次檢查中大多數的樣本點會被排除,因此,這個檢查的代價相對較小。
圖2. 在現下的尺度和鄰近度(記為圓),通過將一個像素(記為叉)與其臨近的3*3區域內的26個像素進行對比,得到高斯差分圖像的最大值和最小值。
確定圖像和尺度空間中樣本的頻率非常重要,需要對極值進行可靠地探測。不幸的是,無法找到可以探測到所有極值的最小采樣間隔,因為極值之間可以任意程度的接近,無規律可循。可以想象黑色背景上有一個白色的圓圈,在尺度空間的最大值處為圓形高斯差分函數區域的正中心,它與圓的大小和位置匹配。對於一個被拉長的橢圓形,它的每個端點(end)都有一個最大值。最大值的位置是一個圖像的連續函數,對於那些中間被拉長的橢圓形將有從一個極值到兩個極值的過渡,在過渡中,極值會任意的接近彼此。
因此,我們必須使用一個權衡效率和完整性的方案。實際上,正如我們所想,也被我們的實驗所證實,相鄰近的極值對圖像很小的攝動是很不穩定的。我們可以通過對很大范圍內采樣頻率的研究和使用那些在匹配任務的逼真模擬中提供了最可靠結果(的數據)來決定最好的選擇。
3.2 尺度采樣的頻率
圖3. 第一幅圖上一條線是關鍵點在一幅被轉換的圖像的同一位置和尺度被重復探測的百分率,作為一個組采樣的尺度數的值。下面的那條線是關鍵點的描述子與大型數據庫正確匹配的百分率。第二幅圖表示的是在一幅典型圖像中被探測到的關鍵點總數,以此作為尺度采樣的數值。
如圖3和圖4所示為采樣頻率所決定的取極大值的穩定性實驗。這些圖(以及本文中的大多數模擬)是基於一組32幅不同范圍的真實圖像的匹配工作,圖像包括外景、人臉、航空影像和工業圖像(經研究發現圖像域對結果無任何影響)。每幅圖像都經過了一系列的變換,包括旋轉、縮放、仿射拉伸、明亮度對比度變化和增加圖像噪聲。改變是綜合的,這樣才有可能精確地推斷初始圖像的每個特征在轉換后的圖像中如何呈現,從而可以對每個特征測量正確的重復率和位置的准確性。
圖4. 圖中頂部的那條線表現的是關鍵點位置在轉換的圖像中被重復探測到的百分率,被作為對每個組第一級優先圖像平滑的函數。
圖3所示為用於檢查在極值探測前采樣的圖像函數每個組尺度數變化的效果。在這個情況下,每幅圖像都經過隨機角旋轉和初始圖像0.2-0.9倍的隨機縮放,然后被重采樣。降分辨率圖像的關鍵點與初始圖像進行匹配,因此所有關鍵點的尺度將被呈現在匹配圖像中。另外,添加了1%的圖像噪聲,也就是說在[0,1]范圍內變化的像素值將被隨機添加一個在[-0.01,0.01]內等間距變化的隨機數字(相當於降低圖像像素6比特的准確度)。
圖3中的首行為關鍵點在一幅轉換后圖像進行匹配,位置和尺度被探測到的百分率。本文中所有的例子,我們都將匹配尺度定義為正確尺度的倍,匹配位置為σ個像素以內,σ為關鍵點的尺度(定義為高斯差分函數中使用的最小高斯函數的標准差)。圖中下面的一行為使用最近鄰匹配法,與有40,000個關鍵點的大型數據庫正確匹配的關鍵點數,詳細過程在第六章講述(這表明關鍵點被重復定位對識別和匹配工作非常有利)。這幅圖表示當每個組采樣3個尺度時,重復率最高,這也是本文中其它實驗所使用的采樣尺度數。
采樣的尺度是不是越高重復率就越好,這一點可能讓人覺得有些奇怪。這是因為在很多被探測到的局部極值結果中,這些(尺度高的)結果穩定性較差,因此在轉換圖像中被探測到的幾率也就降低了。可以由圖3中的第二幅圖看出,關鍵點被探測出來的平均數以及每幅圖像中正確的匹配數。關鍵點數隨采樣尺度增加而提高。由於目標識別成功與否更多的是依賴於關鍵點正確匹配的數量,而不是它們匹配的正確率,因此對於很多應用而言,選擇較大的尺度采樣才是最佳選擇。然而,計算成本也會隨之增大,因此本文中的實驗我們選擇使用每個組3個采樣尺度。
總而言之,這些實驗表明高斯差分函數的尺度空間有很多的極值,但是完全的探測到它們成本很高。幸運的是,我們只使用一些較大的采樣尺度就可以探測到很多有用而穩定的子集。
3.3 空間域采樣的頻率
我們剛決定尺度空間每組的采樣頻率,接下來要確定與平滑尺度相關的圖像域中的采樣頻率。極值可能任意程度上的接近彼此,這里有一個類似的堆采樣頻率和探測率的權衡。圖4所示為優先平滑函數的決策實驗,應用於建立每個組的尺度空間代表前。同樣,圖中頂部的那條線表示關鍵點探測的重復率,結果顯示重復率隨σ的增大而增大。然而,使用大的σ對效率有所影響,所以我們選用σ=1.6來實現近似最佳的結果。這個值在本文中(包括圖3中的結果)被普遍應用。
當然,如果我們在極值探測前對圖像進行預平滑處理,我們就有效地剔除了最高的空間頻率。這樣,要充分利用輸入,相比初始圖像,圖像可以被擴展來獲取更多的采樣點。在建立金字塔第一層之前,我們使用線性插值使輸入圖像的大小加倍。對原始圖像使用亞像素補償濾波可以有效的等價運算,但圖像加倍的實現更加有效。我們假設原始圖像有至少σ=0.5的模糊(防止顯著混淆現象的最小值),因此相對新的像素空間,加倍的圖像有σ=1.0。這意味着在創建第一組的尺度空間前,增加小量的平滑是必要的。圖像加倍使穩定的關鍵點數增加了近4倍,但使用更大的擴展系數沒有更明顯的提高。
4. 准確的關鍵點定位
完成了像素與其近鄰的比較就可以得到關鍵點的候選值,下一步就是完成附近數據位置、尺度和主曲率的精細配置(fit)。這個信息使低對比度的點(對噪音敏感)或定位在邊角的差點被淘汰。
這個方法的初步(Lowe,1999)簡單地實現了關鍵點定位於中心樣本點的位置和尺度。然而,Brown最近改進了此方法(Brown和Lowe,2002)。通過局部樣本點的三維二次方程配置來決定最大值的插值位置。他的實驗表明這一改進很大程度地提高了匹配和穩定性。他的方法對尺度空間方程D(x,y,σ)使用了泰勒級數展開(到二階)變換,把樣本點作為原點。
(2)
其中D和它的導數是樣本點的估值,而為這一點的補償。通過對函數求關於x的偏導並設為零得到極值的位置 :
如Brown建議的,Hessian法和對D求導都是對相鄰樣本點使用差分來求估計值的。可以在最小的成本下得到3*3的線性系統的結果。如果在任何維度的補償大於0.5,就意味着極值與另一個樣本點更為接近。這時,樣本點改變,並進行插值取代該點。最終的補償值
加到樣本點的位置上來獲取極值位置的插值估計值。
極值處的函數值對排除低對比度的不穩定極值非常有用。這個可以通過用公式(3)代替(2)得到。
對於本文中的實驗來說,所有極值的小於0.03的都要被排除(如前假設,我們設圖像像素值在[0,1]的范圍內)。
圖5所示為在自然圖像上進行關鍵點選擇的結果。為了防止太多的聚類,我們使用了一個233*189像素的低分辨率圖像,關鍵點被變現為矢量形式,給出了每個關鍵點的位置、尺度和方向(方向的指定見下文)。圖5(a)所示為原始圖像,后面的圖像對其進行了降對比度。圖5(b)所示為高斯差分函數探測到的所有最大值和最小值。而(c)所示為除去值小於0.03所剩的729個關鍵點,(d)部分將在后面的章節中介紹。
圖5. 本圖表示的是關鍵點選擇的階段。(a)233*189個像素的初始圖像。(b)高斯差分公式最大值和最小值確定出的832個關鍵點位置,關鍵點被顯示為矢量形式,表示尺度,方向和位置。(c)對最小值對比設置臨界值后,還剩下729個關鍵點。(d)附加一個主曲率極限后,最終剩下的536個關鍵點。
4.1 排除角反射
對穩定性而言,只去除低對比度的關鍵點是不夠的。即便在邊緣處的點具有很差的決策性並且對很小的噪聲很不穩定,高斯差分函數也會有很強的反應。高斯差分函數中一個定義不好的峰值將會對邊緣處產生很大的主曲率,而在垂直方向上產生很小的主曲率。主曲率可以通過一個2*2的Hessian矩陣來計算。H在關鍵點的位置和尺度上。
(4)
通過對近鄰樣本點的差分來估計導數值。
H的特征值與D的主曲率成比例。借用Harris和Stephens(1988)的方法,我們可以明確地避免特征值的計算,而只關心它們的比值。設α為最大量級的特征值,而β為最小量級的。然后我們可以通過求H的跡來獲得特征值的和,從行列式獲得它們的積:
行列式不可能為負,曲率符號不同時,點不為極值,舍去。設r為最大量級特征值和最小特征值之比。所以α=rβ。接下來,
只取決於特征值的比而不是它們各自的值。當兩個特征值相等時,(r+1)2/r最小,並隨r的增加而增加。因此,要看主曲率是否低於某個極限,我們只需要檢查:
這個計算非常高效,當對每個關鍵點只需進行小於20次的浮點運算檢測。本文中的實驗使用的r值為10,這意味着認為關鍵點在主曲率間的比值大於10。圖5中(c)到(d)的轉換即為這個運算的結果。
5. 定向任務
通過局部圖像屬性給每個關鍵點指定一個的方向,關鍵點描述子可以與這個方向相關,從而實現圖像旋轉的不變性。這個方法和Schmid和Mohr(1997)的方法相比,他們的每個圖像屬性都是基於一個旋轉不變的測量。他們方法的缺點就是它限制了可用的描述子,並因為沒有要求所有測量都基於一個一致的旋轉而丟失了圖像信息。
下面的實驗使用了很多方法來指定局部方向,下面的方法為找到最多穩定結果的。關鍵點的尺度是用來選擇尺度最接近的高斯平滑圖像L的,這樣所有的計算都是在一個尺度不變條件下進行的。對於每個圖像樣本L(x,y),在這個尺度下,梯度量級m(x,y)和方向θ(x,y)是用像素差預計算出來的:
一個方向直方圖是用關鍵點周圍區域的樣本點的梯度方向組成的。方向直方圖有36個柱子,覆蓋360度方位角。每個加到直方圖的樣本都被它的梯度量級定權,再被該處關鍵點尺度1.5倍的σ的高斯圓形窗口定權。
方向直方圖的峰值與局部梯度的主方向相對應。直方圖中的最高峰值首先被探測到,然后是占最高峰80%以上的局部峰值也會在該方向建立一個關鍵點。因此,對於有多個相似量級的位置,可以在該位置和尺度創建多個不同向的關鍵點。只有15%的點會被指定多個方向,但它們對匹配的穩定性意義很大。最后,得到一個與3個直方圖值配准(fit)的過每個峰值最接近的更准確峰位的插值拋物線。
圖6所示為在不同數量的圖像噪聲下,位置、尺度和方向指定的實驗穩定性。如前,圖像被隨機地旋轉縮放過。頂端的線為關鍵點位置和尺度指定的穩定性。第二條線為當方向指定在15度以內的匹配穩定性。上面兩條線之間的差距可以看出,即使加了10%的像素噪聲。方向指定保留了時間95%的准確性(相當於相機有小於3比特的准確度)。正確匹配的方向量測變化為25度左右,當有10%的噪聲時,升為3.9度。圖6最下面一條線為一個關鍵點描述子與一個有40,000個關鍵點的數據庫匹配正確的最終准確率(下文討論)。如圖所示,SIFT特征對大量的像素噪聲具有抵抗性,而錯誤的主要原因在初始位置和尺度的探測。
圖6. 圖中頂行顯示的百分率為像素噪聲的函數,是可重復檢測的關鍵點的位置和尺度。第二行顯示的是之后的重復率,同樣要求方向一致。最下一行為最后與大型數據庫正確匹配的描述子的百分率。
6. 局部圖像描述子
之前的操作已經指定了圖像的位置,尺度和每個關鍵點的方向。這些參數定義(impose)了一個可重復的局部二維坐標系統,可以在里面定義局部圖像區域,從而為這些參數提供不變式。下一步就是為局部圖像區域計算描述子,它要非常鮮明,同時對於剩下的變化盡可能的保持不變性,如光照或三維視點的改變。
一個明顯的方法就是在合適的尺度的關鍵點周圍的局部圖像亮度進行采樣,使用歸一化的相關方法進行匹配。然而,簡單的圖像塊的相關性對變化非常敏感,,從而導致樣本的誤匹配,如仿射變化或三維視點變化或非剛性變形。Edelman等人在1997年提出了一個更好的方法。他們提出的方法是基於生物視覺的,尤其是主視覺皮層中復雜的神經細胞。這些復雜的神經細胞對某個方向和空間頻率的梯度變化反應,但梯度在視網膜上的位置卻是在一個可以接受的范圍(field)內變化而不是精確地固定。Edelman等人假設這些復雜神經細胞的函數使得我們進行匹配和一定視點范圍內三維目標的識別。他們展示了詳細的實驗,通過三維計算機目標和動物形狀的模型表明在允許位置變化下的匹配梯度比在三維旋轉下的分類結果要好得多。(They have performed de-tailed experiments using 3D computer models of object and animal shapes which show that matching gradients while allowing for shifts in their position results in much better classification under 3D rotation.)比如說,在使用復雜的細胞模型后,三維目標在20度景深下旋轉的識別准確率從35%的梯度相關性升為94%。我們的下面的實踐正是受這個思想的啟發,但使用的是另一種計算機制來允許位置變化。
圖7. 要創建一個關鍵點描述子首先要計算關鍵點位置附近區域的每個圖像樣本點的梯度大小和方向,如左圖所示。它們由高斯窗口定權,由重疊的圓形表示。然后如右圖所示,將這些樣本聚集為方向直方圖,每4*4個子區域概括為一個。這里的每個箭頭的長度均為該區域內這個方向附近梯度模值的總和相對應。圖中所示的2*2的描述子箭頭就是由8*8的樣本集計算出來的,本文所使用的是由16*16的樣本集中計算出來的4*4的描述子。
6.1 描述子表達
圖7表明關鍵點描述子的計算。首先,圖像的梯度量級和方向是在關鍵點周圍的采樣,使用關鍵點的尺度來選擇圖像高斯模糊的程度。為了達到方向不變性,我們描述子的坐標和梯度方向都是隨關鍵點方向進行旋轉的。為了高效性,如第五章中所提到的,金字塔中所有等級的梯度都被預計算出來了。在圖7的左邊,它們在每個樣本位置處以小箭頭標出。
σ為描述子窗口寬度1.5倍的高斯定權公式用來指定每個樣本點的權。這個如圖7左邊的圓形窗口所示,使得權重可以平滑的減弱。高斯窗口的目的是為了防止描述子在窗口位置發生微小變化下的突變,給遠離描述子中心的梯度更少的關注,這些梯度對誤匹配影響最大。
關鍵點描述子如圖7右側所示。它通過在4*4的樣本區域建立方向直方圖使得梯度位置可以發生較大的變化。每個方向直方圖有八個方向,每個箭頭的長度與該直方圖輸入的量級有關。一個左邊的梯度樣本可以變為四個樣本位置,並向右邊的直方圖輸出值,從而實現了更大的局部位置變化的目的。
當描述子在從一個直方圖到另一個直方圖或從一個方向平滑地變向另一個方向時發生突變,防止所有的邊緣影響很重要。因此,三線性插值用來給每個梯度樣本向鄰近的箱(柱子)內分配值。換句話說,就是每個箱中的輸入都是乘過了1-d各個方向的權值的,其中d為以直方圖各柱子之間的空間為單位測量的樣本到中心柱子的距離值。
描述子由保存所有方向直方圖的值得矢量得到,對應於圖7右邊圖中箭頭的長度。圖像顯示了一個2*2陣列的方向直方圖,而我們下面的實驗表明每個方框里有八個方向的4*4陣列的直方圖所得結果最優。因此,本文所用的為每個關鍵點有4*4*8=128個元素特征矢量的。
最終,為了減弱光照變化的影響,特征矢量被修改。首先,矢量被標准化為單位長度。對圖像對比度的改變就是講每個像素值乘以一個常數,這樣整個梯度也會乘上同一個常數,這種對比度變化會被矢量歸一化抵消掉。亮度變化中圖像里的每個像素都會加一個常數,這不會影響到梯度值,因為梯度值是像素值之差。因此,描述子對於光照的仿射變化是具有不變性的。然而,非線性光照變化也可能是由於相機飽和度或光照變化影響了不同數量不同方向的三維表面。這些影響可能會造成一些梯度相關量級的巨大變化,但對梯度方向影響很小。因此,我們減少將每個單位特征矢量不大於0.2的這個限定對大的梯度量級的影響,然后對單位長度進行重歸一化。這意味着匹配大梯度量級不再是一件重要的事,而更加強調方向的分布。值0.2是通過圖像對相同的三維目標保留不同光照的實驗得到的。
6.2 描述子測試
有兩個參數可被用為變化描述子的復雜度:在直方圖中的方向數r和n*n方位直方圖陣列的寬n。最終描述子矢量的大小為。當描述子的復雜度增加時,在大型數據庫中的區分度更好,但它對形狀畸變和閉塞也更為敏感。
圖8. 本圖描述的為寬為n*n的關鍵點描述子以及每個直方圖方向數的函數,是關鍵點與數據庫中40,000個關鍵點正確匹配的百分率。
圖8所示的實驗結果,其中方向數和描述子大小為變化的。圖是用一個視點變換得到的,其中平面相比觀察者傾斜了50度,並添加了4%的噪聲。這接近了可靠匹配的極限,也是在這種更加困難的情況下,描述子的表現才更為重要。結果為在40,000個關鍵點的數據庫在找到正確匹配的最近鄰單點的關鍵點百分數。圖中顯示所得,單個方向的直方圖(n=1)的區分度很差,但增加直至一個4*4陣列的八方向直方圖的過程中結果一直在改善。這之后,再增加方向或加大描述子只對匹配造成了影響,使得描述子對畸變更加的敏感。在其他視角角度變化和噪聲情況下,結果是相似的。盡管在一些簡單的情況下,區分度(從最高級)繼續提高直至5*5和更高的描述子大小。但我們在本文中仍使用4*4的8方向描述子,可產生128維的特征矢量。盡管描述子的維數好像很高,但我們發現這在一系列匹配任務中比低維度表現更好,而且匹配的計算成本在使用如下介紹的近似的最近鄰方法中也很低。
6.3 仿射變化敏感度
圖9. 本圖所示為關鍵點位置、方向和最終與數據庫匹配的探測的穩定度,作為仿射變換的一個函數。仿射變換的程度由平面內一組等視點景深旋轉來表示。
描述子對仿射變化的敏感度如圖9所示。圖中所示為關鍵點位置和尺度選擇、方向分配和與一個與遠離觀察者的平面中進行深度旋轉函數的數據庫進行最近鄰匹配的可靠性。可以看出,每個計算階段中,隨着仿射畸變的增加,重復率的下降,但在最后,對於一個視點變化50度時,匹配的准確度仍是保持在50%之上。
為了實現大視點角情況下可靠的匹配,如第二章所講,可以使用一種仿射不變的探測器來對圖像區域進行選擇和重采樣。那里提到,由於這些方法都是起源於一個非仿射不變的圖像的初始特征位置,所以它們並不具有真正的仿射不變性。在看起來最具有仿射不變性的方法中,Mikolajczyk(2002)對Harris仿射探測器假設並執行了詳細的實驗。他發現,它的關鍵點重復率比這里給出的50度的視點角要低,但在角度為70度時,保持在接近40%的重復率上,在極值仿射變換中表現更好。缺點是計算成本高,關鍵點數量少和在噪聲下設定一致仿射變換框架誤差對小的仿射變換穩定性差。實際上,三維目標允許的范圍是遠少於對平面的,所以仿射不變性在匹配視點變化時並不是限制因素。如果要求大范圍的仿射不變性,如要求表面為平面,那么一個簡單的解決方案就是去采用Pritchard和Heidrich(2003)的方法,生成由訓練圖像的4仿射變換的版本到60度視點的變化的附加SIFT特征。這使得標准SIFT特征的使用在圖像識別處理中沒有增加新的運算成本,但在因素為3的特征數據庫的大小增加了。
6.4 與大型數據庫匹配
圖10. 虛線表明關鍵點與數據庫正確匹配的百分率,為數據庫大小的一個函數(使用對數尺度)。實線為關鍵點分配正確的位置、尺度和方向。圖像有隨機尺度和旋轉變換,30°的仿射變換和2%的圖像噪聲被預先加入匹配中。
一個測量特征鮮明性的重要遺留問題是匹配重復率如何作為一個匹配數據庫中的特征數的函數變化。本文中大多數的例子是使用一個32幅圖像,40,000個關鍵點的數據庫而生成的。圖10所示匹配重復率如何作為一個數據庫大小的函數變化的。這幅圖像是使用一個更大的有112幅圖像的數據庫生成的,視點旋轉深度為30度,添加了2%的噪聲,圖像進行了隨機地尺度變化和旋轉。
虛線表明數據庫中以最近鄰為正確匹配的圖像特征的部分,它作為數據庫大小的函數以對數的形式顯示出來。最左端的點是與由一張圖像中得到的特征進行匹配而最右端的點是從含有112幅圖像的數據庫的所有特征中選擇的匹配。可以看出匹配的可靠性在以干擾項數目為函數時降低了,而所有的顯示表明在更大的數據庫大小下更多的正確匹配將繼續被找到。
實線為關鍵點在轉換圖像的正確匹配的位置和方向被識別的百分率,所以只有這些點在數據庫中有機會有匹配的描述子。這條線平緩(flat)的原因是測試在整個數據庫中運行了每個值,但只改變了數據庫中一部分用來干擾的部分。有趣的是,兩條線之間的間隔很小,表明匹配失敗更多的是因為初始特征定位和方向分配的問題,而不是特征鮮明性的問題,而不是大型數據庫大小的問題。
7. 目標識別的應用
如上所示,本文主要討論的是鮮明不變性關鍵點的派生。為了展示它們的應用,我們給出它們在目標遮擋和聚類情況下進行識別的應用。更多關於這些特征的識別應用參見其它文獻(Lowe,1999;Se等人,2002)。
目標識別首先要將每個關鍵點獨立的與從訓練圖像中提取的關鍵點進行匹配。由於模糊的特征和從背景聚類中得到的特征,很多這些最初的匹配是不正確的。因此,首先識別那些與一個目標或其姿態一致的至少有三個特征的聚類,因為他們比那些獨立特征有更高的可能被正確匹配。接下來,通過履行一個與模型合適的精細幾何來檢查每個聚類,並判斷結果,決定采納還是放棄解譯。
7.1關鍵點匹配
通過在由訓練圖像得到的關鍵點數據庫中識別最近鄰,我們找到了每個關鍵點的最佳候選匹配。如第六章所述,最近鄰定義為每個關鍵點的不變描述子矢量之間的最短歐氏距離。
然而,圖像中的很多特征與訓練數據庫可能沒有任何正確的匹配,因為它們是從背景聚類中提出的或沒有在訓練圖像中被探測到。因此,有一種方法來丟棄與數據庫沒有很好地匹配的特征很有用。對最近距離特征的全局限值執行的並不盡如人意,因為一些描述子比其他的要鮮明很多。更有效的方法是使用最近距離與次近距離的比值。如果有同一目標的很多訓練圖像時,我們定義與第一個來自不同目標的次近距離為最近距離,就像使用含有不同目標的已知圖像一樣。這個方法執行很好,因為正確匹配需要最近鄰顯著地接近那些最接近的錯誤匹配來達到可靠性匹配。對於錯誤的匹配,由於特征空間的高維度,相似距離內會有很多其他的錯誤匹配。我們可以把次近距離匹配作為對特征空間的這一部分錯誤匹配密度的一個估計並同時識別特征不明確的特殊實例。
圖11. 匹配的正確性可由距離比率決定,即用最近鄰距離除以次近鄰的距離得到。使用一個有40,000個關鍵點的數據庫,實線顯示的為正確匹配距離比率的概率密度函數,而點線為錯誤的概率密度函數。
圖11表明用這種方法對真實圖像數據的測量值。正確和不正確匹配的可能性密度函數以每個關鍵點最近鄰與次近鄰之比表示。最近鄰為正確匹配的概率密度函數的中心比錯誤匹配的比率低很多。對於我們的目標識別的執行,我們丟棄那些距離比值大於0.8的匹配,這樣可以在僅僅丟棄5%的正確匹配的前提下,減少90%的錯誤匹配。圖像是在一個40,000關鍵點的數據庫中,以隨機尺度和方向變化下匹配圖像生成的,旋轉深度為30度,添加了2%的噪聲。
7.2 有效的最近鄰函數
沒有一個現行算法可以在識別高維空間點的准確最近距離時優於窮搜索法(exhaustive search)。我們的關鍵點描述子有128維的特征矢量,而最好的算法,如k-d樹(Friedman等人,1977年)也無法在多於10維的空間中提供比窮搜索法更快速的性能。因此,我們用了一種近似的算法,叫做最優盒優先(BBF)算法(Beis和Lowe,1997)。這是在場景中近似的返回具有最高可能性的最近鄰。
BBF算法使用了一種k-d樹算法的改進算法,使得特征空間中的箱是以它們在隊列位置中最的近距離的順序被檢索。這種優先順序最早是由Arya和Mount(1993)實踐的,他們在Arya等人(1998)的文獻中對其計算性能提供了更進一步的研究。這個搜索順序要求使用一種基於堆優先的隊列來實現搜索順序的高效決策。在檢索了特定量的最近箱之后,中斷進一步的搜索可以低計算成本的返回一個近似結果。在我們的實現中,我們在檢查了最開始的200個最近鄰候選值后,中斷了搜索。對於一個有100,000個關鍵點的數據庫,它比准確的最近鄰搜索加速了約兩個數量級,而正確匹配的結果只損失了不到5%。BBF算法運行如此良好的一個原因是我們只考慮了最近鄰比次近鄰小於0.8以內的這些匹配(如前面章節中提到的),因此無需考慮那些很多近鄰距離非常接近的困難情況。
7.3 霍夫變換的聚類
對小而高度遮擋的目標識別實現最大化,我們希望以最少的可能的特征匹配數進行目標識別。我們發現在最少使用3個特征的情況下可靠識別是可能的。一個有着2,000個或更多特征的典型圖像可能會有很多不同的目標和聚類背景。而第七章中所述的距離比率實驗允許我們從聚類背景中丟棄大量的錯誤匹配,而這並不減少其他有效目標的匹配。通常,我們仍需要從含有99%異常值的匹配中找到那少於1%的正常值識別正確的子集。很多眾所周知的穩健地配置(fitting)方法,如RANSAC或最小平方中值,在正常值小於50%時運算結果就會很差。幸運的是,在姿態(pose)空間使用Hough轉換(Hough,1962;Ballard,1981;Grimson,1990)的聚類特征可以很好的表現。
霍夫轉換通過每個特征與所有目標中特征一致的姿態進行投票通過(vote for)的一致性解譯來識別聚類。當發現特征聚類與一個目標投票通過了同一姿態,這種解譯正確的可能性比任何單一特征要高很多。我們的每個關鍵點都有4個參數:二維位置,尺度和方向,而數據庫中每個匹配的關鍵點都有這個關鍵點與找到的訓練圖像相關聯的記錄。因此,我們可以建立一個霍夫變換,由匹配假設輸入預計的模型位置,方向和尺度。這個預計有很大的誤差界限,因為這四個參數的相似變換只是一個三維目標全六自由度的姿態空間的估計值,並且沒有做任何非剛性的變換。因此,我們30度方向的寬箱大小,2因素的尺度以及投影訓練圖像位置維數(使用預計的尺度)最大值的0.25倍。為了防止邊界效應在箱指定中的問題,每個關鍵點匹配在每個維度中都指定(vote for)了兩個最近的箱,這個假設共有16個輸入,姿態范圍擴寬更多。
在多數霍夫轉換的實現中,用多維陣列來表現箱。然而,很多潛在的箱保持為空,由於它們共有的依賴性,很難計算箱值可能的范圍(比如說,選擇范圍上可能的位置離散值的依賴性)。這些問題可通過使用箱值的偽隨機散列函數向一維散列表中插入投票(votes),從而可以簡單的探測到沖突。
7.4 仿射參數的解決方法
霍夫轉換是用來識別箱中至少有三個實體的所有聚類。每一個這樣的聚類都要進入一個用最小二乘法來計算與訓練圖像向新圖像轉換有關的最佳的仿射投影參數的幾何驗證程序。
在正射投影下,仿射變換可以正確求解(account for)一個平面的三維旋轉,但對於非平面的目標的三維旋轉估值就很差了。更普遍的方法是解基礎矩陣(Luong和Faugeras,1996;Hartley和Zisserman,2000)。然而,與仿射法只需要3個點匹配相比,一個基礎矩陣式要求至少7個,而實際中,為了更好的穩定性,需要更多的匹配。我們希望只用三個特征匹配就完成識別,因此仿射變換就提供了一個很好的起始點,我們可以通過將允許的殘差值增大來計算(account for)仿射估計中的誤差。想象在目標周圍放了一個球形,然后將球形旋轉30度,球內的任意點不會移動超過球形投影直徑的0.25倍。對於本文中的一個典型三維目標的例子,在我們允許殘差不大於目標投影維數的最大值的0.25倍時,仿射方法可以很好地解決問題。Brown和Lowe(2002)提出了一種更普遍的方法,初值由相似變換得到,然后計算已經找到足夠匹配數的基礎矩陣。
模型點對於圖像
的仿射變換可以被寫為:
其中,
為模型變換,而mi參數表示仿射旋轉、縮放和拉伸。
我們希望解出變換參數,因此,上式可以被重寫為將未知量變為列向量的形式:
這個等式表示的是一個單獨的匹配,但可以添加后續匹配的數值,每個匹配都要在第一個和最后一個矩陣中加兩行。要解這個式子,至少需要三對匹配。
我們可以把這個線性系統寫為:
參數x的最小二乘法可以通過解對應的法方程得到,
它為投影模型的位置到圖像位置的距離平方和的最小值。這個最小二乘法可以擴展來解決鉸接的靈活的目標的三維姿態和內部參數(Lowe,1991)。
通過檢查每個圖像特征和模型之間的一致度就可以移除異常值。有了更加准確的最小二乘法,我們要求每個匹配要在霍夫轉換箱(bin)中的參數的誤差一半的范圍以內。如果排除異常值后少於三個點,則這次匹配失敗。當排除異常值后,要用最小二乘法再次計算留下的點,依次迭代下去。另外,自上而下的進行相位(phase)是為了增加與投影模型位置一致的匹配。可能會在霍夫轉換箱時丟失的一些匹配是由於轉換的相似性或其它錯誤。
最后是否接受這個假設取決於之前文章中提到過的精細概率模型(Lowe,2001)。這個方法首先用來在給出模型的投影大小,區域中的特征數和配置(fit)的准確度的情況下,解決模型姿態的錯誤匹配期望數。貝葉斯分析給出了目標基於實際找到的匹配特征被表現出來的可能性。如果最終正確解譯出的可能性大於0.98,我們就接收這個模型。對於投影到圖像很小的區域的情況,3個特征就足夠進行可靠地識別了。對於紋理較多的大面積目標,錯誤匹配的期望值較高,可能會需要是個特征匹配這么多。
8. 識別實例
圖12所示為一個從包含三維目標的聚類遮擋圖像中進行目標識別的例子。如左圖所示,測試圖像為一個玩具火車和青蛙。中圖(大小為600*480像素)為含有被遮蔽的測試目標,並有大量聚類背景的圖片。因此,即使是人眼也很難立即發現。右圖所示為最后正確識別后疊加在一個降對比度版本下的圖像。用於識別的關鍵點顯示為小方形,有一條線來指示方向。方形的大小與用於構建描述子的圖像區域對應。在每個識別目標的外圍有一個外包的平行四邊形,它的邊界是測試圖像在識別過程中在仿射變換下的投影。
另一個潛在的方法應用是位置識別,這樣運動的車輛和設備就可以通過識別熟悉的位置來確定位置了。圖13給出了這個應用的一個例子,其中訓練圖像是從場景中很多地方拍攝的。如左上圖所示,這些目標看起來都不太顯眼,如木牆或是垃圾桶旁的樹。而右上方的測試圖像(大小為640*315像素)是將初始圖像場景旋轉30度后的視點拍攝的,但是,訓練圖像還是很容易的被找到了。
識別的全部過程都被高效完成,所以圖12和圖13的所有目標在一台2GHz的奔騰4處理器上的識別總用時少於0.3秒。我們在一台筆記本上用一台攝影照相機實施該算法,並在多種環境下廣泛的測試了它們。一般來說,有紋理的平面在被旋轉50度以內,在提供做夠光亮的或不是過度強烈的幾乎任何光照條件下,都可以被可靠地識別。對於三維目標,可靠識別的任意向深度旋轉范圍只有30度,而光照變化的干擾性也更明顯。因此,三維目標的識別最好是從多視角的綜合特征入手,如局部特征視角聚類法(Lowe,2002)。
這些關鍵點還被用於解決機器人定位和制圖的問題,這個在其他文章中有詳細的闡述(Se等人,2001)。在這個應用中,一個三目的立體系統被用來決策關鍵點定位的三維估計決策。關鍵點只有同時出現在三幅圖像中,並有一致的不同性時才被使用,這樣可以保證出現較少的異常值。機器人運動時,它通過與現有的三維地圖進行特征匹配來確定自己的位置,然后在更新它們的三維位置時,使用卡爾曼濾波來遞增地向地圖添加特征。這為機器人在一個位置環境中定位提供了一種具有魯棒性和准確性的解決方案。這項工作還處理了位置識別的問題,這樣,機器人可以在一幅大型地圖中被轉換到可以識別自己的位置的狀態(Se等人,2002),相當於目標識別的三維實現。
圖12. 左圖所示為兩目標的測試圖片。它們可以在大量遮擋的聚類圖片中被識別出來,見中圖。識別結果見右圖。每個識別目標周圍都畫有一個平行四邊形來顯示初始測試圖像的邊界,識別過程中解決了仿射變換問題。小方形為用於進行識別的關鍵點。
圖13. 這個例子表明在復雜場景中的位置識別。用於定位的測試圖像為左上方640*315像素的圖像,是從右上角圖像的不同視角拍攝的。識別區域如下圖所示,小的方形為識別的關鍵點,外圍的平行四邊形為仿射變換后初始測試圖像的邊界。
9. 結論
本文中所述的SIFT關鍵點在它的鮮明性方面尤為突出,可以是關鍵點與大型數據庫中的其他關鍵點進行正確的匹配。這一鮮明性由裝配在圖像的局部區域內代表圖像梯度高維的矢量來實現。關鍵點對圖像旋轉具有不變性,對大尺度的仿射變形具有魯棒性。從典型圖像中可以提取大量的關鍵點,從而使在混雜背景下提取小目標具有更好的魯棒性。可以從整個尺度范圍提取關鍵點意味着小的局部特征可以與小而高度遮擋的目標進行匹配,而大的關鍵點則在圖像噪音和模糊時具有了更好的表現。它們的計算是高效的,在標配的PC機上,幾千個關鍵點可以被近實時的從典型圖像中提取出來。
本文還提出了一種用關鍵點進行目標識別的方法。這種方法使用了近似的近鄰查找,用來識別與目標姿態一致的聚類的Hough變換和最小二乘法進行最后的決策和核查。另一個可能的應用是三維重建、運動跟蹤和分割、機器人定位、圖像全景集合(assembly)、對極(epipolar)配准和其他需要進行圖像間匹配位置識別的視角匹配。
對於圖像特征的不變性和鮮明性,未來的研究可以由有很多方向。全三維視點和光照變化數據點集需要進行系統的測試。本文所述特征只使用了單色亮度的圖像,因此,進一步的鮮明性可以從光照不變的顏色描述子中得出(Funt and Finlayson, 1995; Brown and Lowe, 2002)。同樣,局部紋理測量在人類視覺中也具有重要作用,合並在描述子中后,可以比當前這個從單個空間頻率進行研究的描述子更具有普遍的形式。局部特征不變量匹配方法一個吸引人的地方在於這里無需挑選一個特征類型,因為最好的結果往往是使用很多不同特征得到的,因此,本方法可以貢獻於獲得有用的匹配並提高整體的魯棒性。
另一個未來的研究方向是研究可以識別的目標分類的特征。這對類屬目標尤為重要,分類必須包含所有可能的外形,這是一個巨大的范圍。Weber等人的研究(2000)和Fergus等人的研究(2003)顯示通過學習小型數據集的適合識別目標類屬的局部特征,這種方法有實現的可能性。從長遠角度來看,特征集應該包含優先的(prior)和博學的(learned)特征,這些特征將基於對大量目標分來有效的訓練數據的數量來使用。
致謝
我要尤其感謝Matthew Brown,他對本文在內容和表述上給了我很多改進的建議,而他本人在特征定位和不變性上的工作也對本方法有貢獻。另外,我想謝謝大家寶貴的建議,他們是Stephen Se,Jim Little,Krystian Mikolajczyk,Cordelia Schmid,Tony Lindeberg和Andrew Zisserman。這個研究是由加拿大國家科學工程研究協會(NSERC)、機器人學與智能系統協會(IRIS)和Excellence網絡中心支持完成的。
參考文獻
Arya, S. and Mount, D.M. 1993. Approximate nearest neighbor queries in fixed dimensions. In Fourth Annual ACM-SIAM Symposium on Discrete Algorithms (SODA’93), pp. 271–280.
Arya, S., Mount, D.M., Netanyahu, N.S., Silverman, R., and Wu, A.Y. 1998. An optimal algorithm for approximate nearest neighbor searching. Journal of the ACM, 45:891–923.
Ballard, D.H. 1981. Generalizing the Hough transform to detect arbitrary patterns. Pattern Recognition, 13(2):111–122.
Basri, R. and Jacobs, D.W. 1997. Recognition using region correspondences. International Journal of Computer Vision, 25(2):145–166.
Baumberg, A. 2000. Reliable feature matching across widely separated views. In Conference on Computer Vision and Pattern Recognition, Hilton Head, South Carolina, pp. 774–781.
Beis, J. and Lowe, D.G. 1997. Shape indexing using approximate nearest-neighbour search in high-dimensional spaces. In Conference on Computer Vision and Pattern Recognition , Puerto Rico, pp. 1000–1006.
Brown, M. and Lowe, D.G. 2002. Invariant features from interest point groups. In British Machine Vision Conference, Cardiff, Wales, pp. 656–665.
Carneiro, G. and Jepson, A.D. 2002. Phase-based local features. In European Conference on Computer Vision (ECCV), Copenhagen, Denmark, pp. 282–296.
Crowley, J.L. and Parker, A.C. 1984. A representation for shape based on peaks and ridges in the difference of low-pass transform. IEEE Trans. on Pattern Analysis and Machine Intelligence , 6(2):156– 170.
Edelman, S., Intrator, N., and Poggio, T. 1997. Complex cells and object recognition. Unpublished manuscript:
http://kybele.psych.cornell.edu/ ∼edelman/archive.html
Fergus, R., Perona, P., and Zisserman, A. 2003. Object class recognition by unsupervised scale-invariant learning. In IEEE Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, pp. 264–271.
Friedman, J.H., Bentley, J.L., and Finkel, R.A. 1977. An algorithm for finding best matches in logarithmic expected time. ACM Transactions on Mathematical Software, 3(3):209–226.
Funt, B.V. and Finlayson, G.D. 1995. Color constant color indexing. IEEE Trans. on Pattern Analysis and Machine Intelligence, 17(5):522–529.
Grimson, E. 1990. Object Recognition by Computer: The Role of Geometric Constraints, The MIT Press: Cambridge, MA. Harris, C. 1992. Geometry from visual motion. In Active Vision, A. Blake and A. Yuille (Eds.), MIT Press, pp. 263–284.
Harris, C. and Stephens, M. 1988. A combined corner and edge detector. In Fourth Alvey Vision Conference, Manchester, UK, pp. 147– 151.
Hartley, R. and Zisserman, A. 2000.Multiple view geometry in computer vision, Cambridge University Press: Cambridge, UK.
Hough, P.V.C. 1962. Method and means for recognizing complex patterns. U.S. Patent 3069654.
Koenderink, J.J. 1984. The structure of images. Biological Cybernetics, 50:363–396.
Lindeberg, T. 1993. Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention. International Journal of Computer Vision, 11(3):283–318.
Lindeberg, T. 1994. Scale-space theory: A basic tool for analyzing structures at different scales. Journal of Applied Statistics, 21(2):224–270.
Lowe, D.G. 1991. Fitting parameterized three-dimensional models to images. IEEE Trans. on Pattern Analysis and Machine Intelligence , 13(5):441–450.
Lowe, D.G. 1999. Object recognition from local scale-invariant features. In International Conference on Computer Vision , Corfu, Greece, pp. 1150–1157.
Lowe, D.G. 2001. Local feature view clustering for 3D object recognition. IEEE Conference on Computer Vision and Pattern Recognition, Kauai, Hawaii, pp. 682–688.
Luong, Q.T. and Faugeras, O.D. 1996. The fundamental matrix: Theory, algorithms, and stability analysis. International Journal of Computer Vision, 17(1):43–76.
Matas, J., Chum, O., Urban, M., and Pajdla, T. 2002. Robust wide baseline stereo from maximally stable extremal regions. In British Machine Vision Conference, Cardiff, Wales, pp. 384–393.
Mikolajczyk, K. 2002. Detection of local features invariant to affine transformations, Ph.D. thesis, Institut National Polytechnique de Grenoble, France.
Mikolajczyk, K. and Schmid, C. 2002. An affine invariant interest point detector. In European Conference on Computer Vision (ECCV), Copenhagen, Denmark, pp. 128–142.
Mikolajczyk, K., Zisserman, A., and Schmid, C. 2003. Shape recognition with edge-based features. In Proceedings of the British Ma-chine Vision Conference, Norwich, U.K.
Moravec, H. 1981. Rover visual obstacle avoidance. In International Joint Conference on Artificial Intelligence ,Vancouver, Canada, pp. 785–790.
Nelson, R.C. and Selinger, A. 1998. Large-scale tests of a keyed, appearance-based 3-D object recognition system. Vision Research, 38(15):2469–2488.
Pope, A.R. and Lowe, D.G. 2000. Probabilistic models of appearance for 3-D object recognition. International Journal of Computer Vision , 40(2):149–167.
Pritchard, D. and Heidrich, W. 2003. Cloth motion capture. Computer Graphics Forum (Eurographics 2003), 22(3):263–271.
Schaffalitzky, F. and Zisserman, A. 2002. Multi-view matching for unordered image sets, or ‘How do I organize my holiday snaps?”’ In European Conference on Computer Vision , Copenhagen, Den-mark, pp. 414–431.
Schiele, B. and Crowley, J.L. 2000. Recognition without correspondence using multidimensional receptive field histograms. International Journal of Computer Vision , 36(1):31–50.
Schmid, C. and Mohr, R. 1997. Local gray value invariants for image retrieval. IEEE Trans. on Pattern Analysis and Machine Intelligence,19(5):530–534.
Se, S., Lowe, D.G., and Little, J. 2001. Vision-based mobile robot localization and mapping using scale-invariant features. In International Conference on Robotics and Automation , Seoul, Korea, pp. 2051–2058.
Se, S., Lowe, D.G., and Little, J. 2002. Global localization using distinctive visual features. In International Conference on Intelligent Robots and Systems, IROS 2002 , Lausanne, Switzerland, pp. 226–231.
Shokoufandeh, A., Marsic, I., and Dickinson, S.J. 1999. View-based object recognition using saliency maps. Image and Vision Computing , 17:445–460.
Torr, P. 1995. Motion segmentation and outlier detection, Ph.D. The-sis, Dept. of Engineering Science, University of Oxford, UK.
Tuytelaars, T. and Van Gool, L. 2000. Wide baseline stereo based on local, affinely invariant regions. In British Machine Vision Conference, Bristol, UK, pp. 412–422.
Weber, M., Welling, M., and Perona, P. 2000. Unsupervised learning of models for recognition. In European Conference on Computer Vision, Dublin, Ireland, pp. 18–32.
Witkin, A.P. 1983. Scale-space filtering. In International Joint Conference on Artificial Intelligence , Karlsruhe, Germany, pp. 1019–1022.
Zhang, Z., Deriche, R., Faugeras, O., and Luong, Q.T. 1995. A robust technique for matching two uncalibrated images through the recovery of the unknown epipolar geometry. Artificial Intelligence, 78:87–119.