Computer Vision_33_SIFT：Object recognition from local scale-invariant features——1999

本文轉載自查看原文 2019-10-03 12:59 349 翻譯/ 論文

此部分是計算機視覺部分，主要側重在底層特征提取，視頻分析，跟蹤，目標檢測和識別方面等方面。對於自己不太熟悉的領域比如攝像機標定和立體視覺，僅僅列出上google上引用次數比較多的文獻。有一些剛剛出版的文章，個人非常喜歡，也列出來了。

33. SIFT
關於SIFT，實在不需要介紹太多，一萬多次的引用已經說明問題了。SURF和PCA-SIFT也是屬於這個系列。后面列出了幾篇跟SIFT有關的問題。
[1999 ICCV] Object recognition from local scale-invariant features
[2000 IJCV] Evaluation of Interest Point Detectors
[2006 CVIU] Speeded-Up Robust Features (SURF)
[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors
[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints
[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search
[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

翻譯

從局部尺度不變特征識別物體——http://tongtianta.site/paper/56806

作者：David G. Lowe

摘要 -已經開發了使用新型本地圖像特征的對象識別系統。這些特征對於圖像縮放，平移和旋轉是不變的，而對於照明變化和仿射或3D投影則是部分不變的。這些功能與下顳葉皮質的神經元具有相似的屬性，這些屬性用於靈長類動物視覺中的物體識別。通過分階段篩選方法可以有效地檢測特征，該方法可以識別比例尺空間中的穩定點。通過在多個方向平面和多個比例上表示模糊的圖像梯度，創建允許局部幾何變形的圖像關鍵點。這些鍵用作識別候選對象匹配項的最近鄰居索引方法的輸入。通過為未知模型參數找到一個低殘差最小二乘解，可以完成對每個匹配項的最終驗證。實驗結果表明，在雜亂的部分遮擋圖像中，可以以不到2秒的計算時間實現魯棒的目標識別。

1 簡介

在雜亂的現實場景中進行對象識別需要不受附近雜亂或部分遮擋影響的局部圖像特征。這些特征必須至少部分不變於照明，3D投影變換和常見對象變化。另一方面，這些特征還必須具有足夠的獨特性，以在許多替代方案中標識特定的對象。對象識別問題的困難在很大程度上是由於未能成功找到這種圖像特征。但是，最近對密集局部特征的使用的研究(例如，Schmid＆Mohr [19])表明，通常可以通過使用在大量可重復位置采樣的局部圖像描述符來實現有效的識別。

本文提出了一種新的圖像特征生成方法，稱為尺度不變特征變換(SIFT)。這種方法將圖像轉換成大量的局部特征向量，每個局部特征向量對於圖像的平移，縮放和旋轉都是不變的，而對於照明變化和仿射或3D投影則是部分不變的。先前的局部特征生成方法缺乏尺度不變性，並且對投影失真和照明變化更敏感。SIFT功能與靈長類動物視力下顳葉(IT)皮質中神經元的反應具有許多共同的特性。本文還描述了索引和模型驗證的改進方法。

通過使用分級過濾方法，可以有效地識別尺度不變特征。第一階段通過尋找高斯差函數的最大值或最小值的位置來確定尺度空間中的關鍵位置。每個點都用於生成特征向量，該特征向量描述相對於其比例空間坐標系采樣的局部圖像區域。通過模糊圖像梯度位置，這些功能實現了局部變化的局部不變性，例如仿射或3D投影。該方法基於哺乳動物視覺的大腦皮層中復雜細胞行為的模型。所得的特征向量稱為SIFT鍵。在當前的實現中，每個圖像生成1000個SIFT鍵的數量級，此過程需要少於1秒的計算時間。

從圖像派生的SIFT密鑰在最近鄰方法中用於索引以標識候選對象模型。首先通過霍夫變換哈希表，然后通過最小二乘法擬合最終確定模型參數，來確定與潛在模型姿勢一致的鍵集合。當至少三個鍵在殘差低的模型參數上達成一致時，有充分的證據表明存在物體。由於典型對象的圖像中可能有數十個SIFT鍵，因此可能在圖像中具有大量的遮擋，但仍保持較高的可靠性。

當前的對象模型表示為SIFT密鑰的2D位置，可以進行仿射。在特征位置上進行足夠的變化可以識別平面形狀的透視投影，該平面投影距離相機最多60度旋轉，或者允許3D對象最多20度旋轉。

2.相關研究

對象識別已在機器視覺行業中廣泛用於檢查，注冊和操縱的目的。但是，當前用於對象識別的商業系統幾乎完全依賴於基於相關性的模板匹配。雖然對於嚴格控制對象姿態和照明的某些工程環境非常有效，但是當允許對象旋轉，縮放，照明和3D姿態發生變化時，模板匹配在計算上就變得不可行，在處理部分可見性和大型模型時甚至更是如此數據庫。

在所有圖像位置搜索匹配項的一種替代方法是從圖像中提取至少部分不變於圖像形成過程並僅與那些特征匹配的特征。已經提出並探索了許多候選特征類型，包括線段[6]，邊緣分組[11、14]和區域[2]，還有許多其他提議。盡管這些功能對於某些對象類別效果很好，但常常檢測不到的頻率不夠頻繁或穩定性不足，無法為可靠識別奠定基礎。

最近開發了密度更高的圖像特征集合。一種方法是使用拐角檢測器(更准確地說，是局部圖像變化中的峰值的檢測器)來標識可重復的圖像位置，在該位置附近可以測量局部圖像屬性。張等。 [23]使用哈里斯角檢測器來識別特征位置，以對從不同視點拍攝的圖像進行極線對准。與其嘗試使一幅圖像的區域與第二幅圖像中的所有可能區域相關聯，不如通過僅匹配以每幅圖像中的拐角點為中心的區域來節省大量的計算時間。

對於物體識別問題，Schmid＆Mohr [19]也使用哈里斯角檢測器來識別興趣點，然后根據高斯導數圖像測量的方向不變矢量在每個興趣點上創建一個局部圖像描述符。這些圖像描述符通過尋找滿足基於對象的方向和位置約束的多個匹配描述符，用於魯棒的對象識別。這項工作對於大型數據庫中的識別速度以及處理混亂圖像的能力都給人留下了深刻的印象。

這些先前方法中使用的拐角檢測器有一個主要缺陷，那就是它們僅以單一比例檢查圖像。隨着比例尺的變化變得明顯，這些檢測器會響應不同的圖像點。另外，由於檢測器未提供物體比例的指示，因此有必要創建圖像描述符並嘗試以大量比例進行匹配。本文介紹了一種有效的方法來確定尺度空間中的穩定關鍵位置。這意味着圖像的不同縮放比例不會影響所選的關鍵位置集。此外，為每個點確定一個顯式比例，這允許在每個圖像中以等效比例對那個點的圖像描述矢量進行采樣。在每個位置確定規范的方向，以便可以相對於一致的局部2D坐標系執行匹配。與Schmid和Mohr使用的旋轉不變的圖像描述符相比，這允許使用更多與眾不同的圖像描述符，並且對描述符進行了進一步修改以提高其對仿射和照度變化的穩定性。

其他基於外觀的識別方法包括特征空間匹配[13]，顏色直方圖[20]和接受域直方圖[18]。這些方法都已經在孤立的物體或預先分割的圖像上得到了成功的證明，但是由於它們具有更全面的功能，很難將它們擴展到混亂且部分遮擋的圖像上。Ohba＆Ikeuchi [15]通過使用許多小的局部本征窗口成功地將本征空間方法應用於雜亂的圖像，但這需要昂貴的搜索新圖像中的每個窗口，如模板匹配。

3.關鍵點定位

我們希望確定圖像縮放空間中相對於圖像平移，縮放和旋轉不變的位置，並且這些位置受噪聲和小失真的影響最小。Lindeberg [8]表明，在尺度不變性的一些相當普遍的假設下，高斯核及其導數是用於尺度空間分析的唯一可能的平滑核。

為了實現旋轉不變性和高效率，我們選擇了在比例空間中應用的高斯函數差的最大值和最小值處選擇關鍵位置。通過建立一個圖像金字塔並在每個級別之間進行重采樣，可以非常有效地計算出該圖像。此外，它將關鍵點定位在變化較大的區域和尺度上，從而使這些位置對於表征圖像特別穩定。Crowley＆Parker [4]和Lindeberg [9]以前曾將標高空間中的高斯差用於其他目的。在下文中，我們描述了一種特別有效且穩定的方法來檢測和表征此函數的最大值和最小值。

由於2D高斯函數是可分離的，因此可以通過在水平和垂直方向上應用1D高斯函數的兩次遍歷來有效地計算其與輸入圖像的卷積：

對於關鍵定位，所有的平滑操作都使用完成，可以使用帶有7個采樣點的1D內核以足夠的精度對其進行近似。

首先使用將輸入圖像與高斯函數卷積得到圖像A。然后，使用的進一步增量平滑第二次重復此操作，以提供一個新圖像B，該圖像現在具有σ=2的有效平滑。高斯函數的差是通過從A中減去圖像B來獲得的，從而得出兩個高斯之間的之比。

為了生成下一個金字塔等級，我們使用雙線性插值對每個方向上像素間距為1.5的已平滑圖像B進行重新采樣。盡管使用的相對比例進行重新采樣似乎更自然，但唯一的限制是采樣頻率足夠頻繁以檢測峰。1.5間距意味着每個新樣本將是4個相鄰像素的恆定線性組合。這對於計算和最小化因更改重采樣系數而產生的混疊偽影非常有效。

通過將金字塔中的每個像素與其相鄰像素進行比較，可以確定此比例空間函數的最大值和最小值。首先，將一個像素與其在金字塔相同級別的8個相鄰像素進行比較。如果在此級別上是最大值或最小值，則考慮1.5倍的重采樣，在金字塔的下一個最低級別上計算最近的像素位置。如果像素保持高於(或低於)該最接近的像素及其8個鄰居，則對以上級別重復測試。由於大多數像素將在幾次比較中消除，因此這種檢測的成本很小，並且比建造金字塔的成本低得多。

果金字塔的第一層以與輸入圖像相同的速率采樣，則最高空間頻率將被忽略。這歸因於初始平滑，這需要提供峰的分離以進行可靠的檢測。因此，在構建金字塔之前，我們使用雙線性插值將輸入圖像擴展2倍。對於典型的512*512像素圖像，這大約可提供1000個關鍵點，而沒有初始擴展的像素點只有四分之一。

3.1 SIFT關鍵點穩定性

為了表征每個關鍵位置的圖像，對金字塔每個級別的平滑圖像A進行處理，以提取圖像梯度和方向。在每個像素A_ij處，使用像素差計算圖像梯度量級M_ij和方向R_ij：

通過將梯度量級設置為最大可能梯度值的0.1倍來提高照明變化的魯棒性。這會降低具有3D浮雕的表面的照明方向更改的影響，因為照明更改可能會導致梯度幅度發生較大變化，但可能對梯度方向的影響較小。

由於先前的平滑程度很高，因此像素差異可高效計算並提供足夠的精度。確定關鍵位置時，將補償有效的半像素位置偏移。

通過將梯度幅度設置為最大可能梯度值的0.1倍，可以增強照明變化的魯棒性。這會降低具有3D浮雕的表面的照明方向更改的影響，因為照明更改可能會導致梯度幅度發生較大變化，但可能對梯度方向的影響較小。

為每個關鍵位置分配了規范的方向，以使圖像描述符對於旋轉不變。為了使其在光照或對比度變化方面盡可能穩定，該方向由局部圖像梯度方向直方圖中的峰值確定。使用高斯加權窗口創建方向直方圖，該窗口的σ是當前平滑比例的3倍。這些權重乘以閾值梯度值，並累積在直方圖中對應於方向R_ij的位置。直方圖有36個bin，覆蓋了360度旋轉范圍，並在選擇峰之前進行了平滑處理。

可以通過對自然圖像進行適當的投影，對比度和亮度變化以及添加噪聲來測試所得鍵的穩定性。根據變換參數的知識，可以在變換后的圖像中預測在第一個圖像中檢測到的每個鍵的位置。該框架用於選擇上面給出的各種采樣和平滑參數，以便可以在保持變化穩定性的同時獲得最大的效率。

圖1顯示了僅在較大音階的2個八度音階范圍內檢測到的按鍵數量相對較少(以避免過度混亂)。每個鍵均顯示為正方形，從中心到正方形一側的線表示方向。在此圖的后半部分，圖像在水平方向上旋轉了15度，縮放了0.9倍，並拉伸了1.1倍。像素強度在0到1的范圍內，從其亮度值中減去0.1，並通過乘以0.9降低對比度。然后添加隨機像素噪聲，以提供少於5位/像素的信號。盡管進行了這些轉換，但第一張圖像中78％的關鍵點在預測位置，比例和方向上都與第二張圖像中的關鍵點緊密匹配。

圖1：第二張圖像是通過旋轉，縮放，拉伸，亮度和對比度的變化以及像素噪聲的添加而產生的。盡管進行了這些更改，但第一張圖像中78％的鍵在第二張圖像中具有緊密匹配的鍵。這些示例僅顯示了減少雜亂的按鍵子集。

圖2：對於應用於20個圖像樣本的各種圖像變換，此表給出了在匹配位置和比例(匹配百分比)以及方向(Ori％)上匹配的關鍵幀的百分比。

4.本地圖片描述

給定每個鍵的穩定位置，比例和方向，現在可以以不變於這些變換的方式描述局部圖像區域。此外，還需要使這種表示方式對局部幾何的小變化(例如由細微或3D投影引起的變化)具有魯棒性。

視覺皮層中復雜神經元的響應特性提出了一種解決方案，其中在保持方向和空間頻率特異性的同時，允許特征位置在較小區域內變化。Edelman，Intrator＆Poggio [5]進行了模擬復雜神經元對計算機圖形模型的不同3D視圖的響應的實驗，發現與簡單的基於相關的匹配相比，復雜的細胞輸出提供了更好的辨別力。例如，如果一個假的投影在一個方向上相對於另一個方向拉伸了圖像，這可以看到，這會改變漸變特征的相對位置，同時對其方向和空間頻率的影響較小。

通過用表示多個取向(稱為取向平面)中的每一個的多個圖像來表示局部圖像區域，可以獲得對局部幾何變形的魯棒性。每個方向平面僅包含與該方向相對應的漸變，其中線性插值用於中間方向。每個方向平面都經過模糊處理並重新采樣，以允許梯度位置發生較大變化。

通過為金字塔的每個級別使用與方向選擇相同的預先計算的梯度和方向，可以有效地實現此方法。對於每個關鍵點，我們使用檢測到關鍵點的金字塔等級的像素采樣。圍繞關鍵位置落入半徑為8像素的半徑的圓中的像素將插入到定向平面中。通過減去按鍵的方向來測量相對於按鍵的方向。對於我們的實驗，我們使用了8個方向平面，每個方向平面都是在4*4位置網格上采樣的，采樣間隔是用於梯度檢測的像素間距的4倍。通過使用方向和兩個空間維度上的線性插值，通過在樣本網格中的每個像素的8個最鄰近像素之間分配每個像素的梯度來實現模糊。這種實現比執行顯式模糊和重采樣要有效得多，但幾乎可以得到等效的結果。

為了以更大的比例對圖像進行采樣，對金字塔的第二個級別(高一個八度)重復相同的過程。但是，這次使用的是2*2而不是4*4示例區域。這意味着將在兩個比例尺上檢查大約相同的圖像區域，以使任何附近的遮擋對一個比例尺的影響不會超過另一個比例尺。因此，兩個尺度上的SIFT關鍵向量中的樣本總數為8*4*4+8*2*2或160個元素，可提供足夠的測量結果以實現高特異性。

5.索引和匹配

為了建立索引，我們需要存儲樣本圖像的SIFT鍵，然后從新圖像中識別匹配的鍵。如果需要精確的解決方案，則識別高維向量的最相似鍵的問題具有很高的復雜性。但是，對k-d樹算法的一種改進(稱為最佳bin-first搜索方法)(Beis＆Lowe [3])可以僅使用有限的計算量就可以高概率地識別最近的鄰居。為了進一步提高最佳倉位優先算法的效率，在較大規模下生成的SIFT關鍵樣本的權重是較小規模上的兩倍。這意味着較大的比例實際上可以過濾最可能的鄰居以較小的比例進行檢查。通過將更多的權重分配給最低噪點范圍，這也提高了識別性能。在我們的實驗中，可能有一個極限值，可以在對30,000個關鍵向量進行的概率最佳優先搜索中檢查多達200個鄰居，而與尋找精確解決方案相比，幾乎沒有性能損失。

對可靠的模型假設進行聚類的一種有效方法是使用Hough變換[1]搜索符合特定模型姿勢的鍵。數據庫中的每個模型鍵都包含一個相對於模型坐標系的鍵參數記錄。因此，我們可以在哈希表中創建一個條目，根據匹配假設預測模型的位置，方向和比例。我們使用30度的bin大小作為方向，比例使用2倍，並且將最大模型尺寸作為位置的0.25倍。這些相當寬的分箱大小甚至在由於3D視點變化而導致的實質幾何變形的情況下也可以進行聚類。為了避免散列中的邊界效應問題，每個假設被散列到每個維度中的2個最接近的bin中，每個假設總共提供16個哈希表條目。

6.適當參數的解決方案

搜索哈希表以識別一個箱中至少3個條目的所有群集，然后將這些箱按大小的降序排序。然后，對每個此類聚類進行驗證過程，在該過程中，對將模型與圖像相關的精細投影參數執行最小二乘解。

從模型點[x y]^T到圖像點[u v]^T的相似轉換可以寫成

其中模型平移為[t_x t_y]^T，並且適當的旋轉，縮放和拉伸由m_i參數表示。

我們希望求解變換參數，因此上面的等式可以重寫為..

該方程式顯示單個匹配項，但是可以添加任意數量的其他匹配項，每個匹配項在第一個和最后一個矩陣中貢獻了另外兩行。提供解決方案至少需要3個匹配項。

我們可以把這個線性系統寫成

參數x的最小二乘解可以通過求解相應的正規方程來確定，

這樣可以最大程度地減少從投影模型位置到相應圖像位置的距離的平方和。這種最小二乘方法很容易擴展到求解關節和柔性物體的3D姿態和內部參數[12]。

給定參數解，現在可以通過檢查每個圖像特征與模型之間的一致性來刪除異常值。每次比賽都必須在15度方向上達成一致，的比例會發生變化，並且位置上的最大模型大小應為0.2倍。如果在丟棄異常值后剩余少於3分，則比賽被拒絕。如果丟棄任何異常值，則將最小二乘解與其余點重新求解。

7.實驗

相似的解決方案為平面對象的透視投影提供了很好的近似，因此平面模型為該方法提供了良好的初始測試。圖3的第一行顯示了對象矩形平面的三個模型圖像。該圖還顯示了包含平面對象的雜亂圖像，並且在識別后顯示的同一圖像覆蓋了模型。顯示的模型密鑰是用於識別和最終最小二乘法的密鑰。由於僅需要3個密鑰即可進行可靠的識別，因此可以看出，這些解決方案具有很高的冗余度，並且可以在大量遮擋下幸存。還顯示了使用最小二乘解的仿射變換投影的模型圖像的矩形邊界。除了透視投影引入的小誤差外，這些與圖像中平面區域的真實邊界非常吻合。對於平面物體的許多圖像已經進行了類似的實驗，並且已經證明該識別對於在遠離相機的任何方向上至少60度旋轉物體具有魯棒性。

圖3：平面對象的模型圖像顯示在第一行。下面的識別結果顯示了模型輪廓和用於匹配的圖像鍵。

盡管模型圖像和合適的參數不能說明3D對象深度的旋轉，但它們仍然足以在每個模型視圖深度大約20度旋轉范圍內對3D對象進行可靠的識別。圖4的第一行顯示了三個模型圖像的示例。這些模型在黑色背景上拍攝，並通過分割背景區域來提取對象輪廓。在同一圖中顯示了一個識別示例，再次顯示了用於識別的SIFT密鑰。使用輪廓參數解決方案來投影對象輪廓，但是這次的一致性不是那么緊密，因為解決方案沒有考慮深度旋轉。圖5顯示了更多示例，其中存在明顯的部分遮擋。

圖4：第一行顯示了3D對象的模型圖像，並通過背景分割找到了輪廓。下圖顯示了3D對象的識別結果，其中包含模型輪廓和用於匹配的圖像鍵。

圖5：遮擋的3D對象識別示例。

這些示例中的圖像尺寸為384*512像素。在Sun Sparc 10處理器上，識別每個圖像中所有對象的計算時間約為1.5秒，構建比例尺金字塔和識別SIFT鍵大約需要0.9秒，執行索引和最小二乘驗證大約需要0.6秒。這不包括對每個模型圖像進行預處理的時間，每個圖像大約需要1秒鍾，但是對於初始輸入到模型數據庫中只需要執行一次即可。

SIFT鍵的照度不變如圖6所示。這兩個圖像從相同的視點具有相同的場景，除了第一個圖像從左上角照亮，第二個圖像從右中角照亮。運行完整識別系統以使用第一張圖像作為模型來識別第二張圖像，並且第二張圖像被正確識別為與第一張圖像匹配。僅顯示識別中的SIFT鍵。作為最終匹配的一部分，已驗證了273個鍵，這意味着在每種情況下，不僅在同一位置檢測到相同的鍵，而且還與第二張圖像中正確的對應鍵最接近。這些鍵中的任何三個都足以識別。雖然在高光或陰影發生變化的某些區域(例如，在相機的發光頂部)找不到匹配的鍵，但是這些鍵通常對照明變化表現出良好的不變性。

圖6：在不同的照明條件下測試了圖像按鍵的穩定性。第一個圖像從左上角照亮，第二個從右中角照亮。底部圖像中顯示的鍵是用於將第二個圖像與第一個圖像進行匹配的鍵。

8.與生物視覺的聯系

人類視覺的性能顯然遠遠優於當前的計算機視覺系統，因此通過模擬生物過程可能會獲得很多收益。幸運的是，在過去幾年中，在了解如何在動物和人類中實現對象識別方面取得了巨大進步。

神經科學方面的最新研究表明，靈長類動物的目標識別利用了中等復雜度的特征，這些特征在規模，位置和照度的變化上基本不變(Tanaka [21]，Perrett＆Oram [16])。在下顳葉皮層(IT)中發現的這種中間特征的一些例子是對五角星狀的深色作出反應的神經元，帶有薄的突出元素的圓或三角形邊界內的水平紋理區域。這些神經元對形狀特征保持高度特定的響應，這些形狀特征出現在視場的很大一部分內，並且范圍在幾個八度音階范圍內(Ito等人[7])。盡管也有一些神經元對更復雜的形狀(例如臉部)做出反應，但許多這些特征的復雜性似乎與當前的SIFT特征大致相同。除了形狀之外，許多神經元還對顏色和紋理屬性做出反應。研究表明，特征響應取決於先前的視覺學習，即從接觸包含特征的特定對象開始(Logothetis，Pauls和Poggio [10])。這些特征似乎是通過高度計算密集的並行過程在大腦中得出的，這與本文中給出的分階段濾波方法完全不同。但是，結果幾乎是相同的：將圖像轉換為一大組局部特征，每個局部特征都匹配一小部分潛在對象，但對於常見的觀看變換卻基本不變。

還眾所周知，大腦中的對象識別取決於一系列注意過程，以將特征綁定到對象解釋，確定姿勢並從凌亂的背景中分割出對象[22]。據推測，該過程在驗證中的作用與本文中使用的參數求解和離群值檢測相同，因為解釋的准確性通常取決於強制執行單個視點約束[11]。

9.結論和評論

SIFT功能在很大程度上不改變比例，照度和局部仿射畸變，從而比以前的方法有所改進。典型圖像中的大量特征允許在雜波圖像中的部分遮擋下進行穩健識別。與僅依賴索引的方法相比，可以解決最終模型參數的最終階段可以進行更准確的驗證和姿態確定。

進一步研究的重要領域是從代表對象3D結構的多個視圖構建模型。這將具有進一步的優勢，即可以將來自多個查看條件的鍵組合到一個模型中，從而增加了在新視圖中查找匹配項的可能性。這些模型可以是基於運動結構的解決方案的真實3D表示，也可以根據自動聚類和插值來表示外觀空間(Pope＆Lowe [17])。后一種方法的優點是它還可以對非剛性變形進行建模。

通過添加新的SIFT要素類型以合並顏色，紋理和邊緣分組以及變化的要素尺寸和偏移，可以進一步提高識別性能。在背景雜亂可能會干擾其他特征的物體邊界處，進行局部數字地面識別的比例不變邊緣分組將特別有用。標引和驗證框架允許將所有類型的比例尺和旋轉不變特征合並到單個模型表示中。通過檢測許多不同的特征類型並依靠索引和聚類來選擇在特定圖像中最有用的特征，可以實現最大的魯棒性。

參考文獻

[1] Ballard, D.H., “Generalizing the Hough transform to detect arbitrary patterns,” Pattern Recognition, 13, 2 (1981), pp.111-122.
[2] Basri, Ronen, and David.W. Jacobs, “Recognition using region correspondences,” International Journal of Computer Vision, 25, 2 (1996), pp. 141–162.
[3] Beis, Jeff, and David G. Lowe, “Shape indexing using approximate nearest-neighbour search in high-dimensional spaces,”Conference onComputerVision and PatternRecognition, Puerto Rico (1997), pp. 1000–1006.
[4] Crowley, James L., and Alice C. Parker, “A representation for shape based on peaks and ridges in the difference of lowpass transform,” IEEE Trans. on Pattern Analysis and Machine Intelligence, 6, 2 (1984), pp. 156–170.
[5] Edelman, Shimon, Nathan Intrator, and Tomaso Poggio,“Complex cells and object recognition,” Unpublished Manuscript, preprint at http://www.ai.mit.edu/~edelman/mirror/nips97.ps.Z
[6] Grimson, Eric, and Thom´as Lozano-P´erez, “Localizing overlapping parts by searching the interpretation tree,” IEEE Trans. on Pattern Analysis and Machine Intelligence, 9 (1987), pp. 469–482.
[7] Ito, Minami, Hiroshi Tamura, Ichiro Fujita, and Keiji Tanaka, “Size and position invariance of neuronal responses in monkey inferotemporal cortex,” Journal ofNeurophysiology, 73, 1 (1995), pp. 218–226.
[8] Lindeberg, Tony, “Scale-space theory: A basic tool for analysing structures at different scales”, Journal of Applied Statistics, 21, 2 (1994), pp. 224–270.
[9] Lindeberg, Tony, “Detecting salient blob-like image structures and their scales with a scale-space primal sketch: a method for focus-of-attention,” International Journal of Computer Vision, 11, 3 (1993), pp. 283–318.
[10] Logothetis,NikosK., Jon Pauls, andTomasoPoggio, “Shape representation in the inferior temporal cortex of monkeys,”Current Biology, 5, 5 (1995), pp. 552–563.
[11] Lowe, David G., “Three-dimensional object recognition from single two-dimensional images,” Artificial Intelligence, 31, 3 (1987), pp. 355–395.
[12] Lowe, David G., “Fitting parameterized three-dimensional models to images,” IEEE Trans. on Pattern Analysis andMachine Intelligence, 13, 5 (1991), pp. 441–450.
[13] Murase, Hiroshi, and Shree K. Nayar, “Visual learning and recognition of 3-D objects from appearance,” International Journal of Computer Vision, 14, 1 (1995), pp. 5–24.
[14] Nelson, Randal C., and Andrea Selinger, “Large-scale tests of a keyed, appearance-based 3-D object recognition system,” Vision Research, 38, 15 (1998), pp. 2469–88.
[15] Ohba, Kohtaro, and Katsushi Ikeuchi, “Detectability, uniqueness, and reliability of eigen windows for stable verification of partially occluded objects,” IEEE Trans. on Pattern Analysis and Machine Intelligence, 19, 9 (1997),pp. 1043–48.
[16] Perrett, David I., and Mike W. Oram, “Visual recognition based on temporal cortex cells: viewer-centered processing of pattern configuration,” Zeitschrift f¨ur Naturforschung C, 53c (1998), pp. 518–541.
[17] Pope, Arthur R. and David G. Lowe, “Learning probabilistic appearance models for object recognition,” in Early VisualLearning, eds. ShreeNayar and Tomaso Poggio (Oxford University Press, 1996), pp. 67–97.
[18] Schiele, Bernt, and James L. Crowley, “Object recognition using multidimensional receptive field histograms,” Fourth European Conference on Computer Vision, Cambridge, UK (1996), pp. 610–619.
[19] Schmid, C., and R. Mohr, “Local grayvalue invariants for image retrieval,” IEEE PAMI, 19, 5 (1997), pp. 530–534.
[20] Swain, M., and D. Ballard, “Color indexing,” International Journal of Computer Vision, 7, 1 (1991), pp. 11–32.
[21] Tanaka, Keiji, “Mechanisms of visual object recognition: monkey and human studies,”Current Opinion in Neurobiology, 7 (1997), pp. 523–529.
[22] Treisman, Anne M., and Nancy G. Kanwisher, “Perceiving visually presented objects: recognition, awareness, and modularity,”Current Opinion in Neurobiology, 8 (1998), pp.218–226.
[23] Zhang, Z., R. Deriche, O. Faugeras, Q.T. Luong, “A robust technique for matching two uncalibrated images through the recovery of the unknown epipolar geometry,” Artificial Intelligence, 78, (1995), pp. 87-119.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Distinctive Image Features from Scale-Invariant Keypoints-SIFT算法譯文 Introduction to SIFT (Scale-Invariant Feature Transform) Distinctive Image Features from Scale-Invariant Keypoints（個人翻譯+筆記）-介紹 SIFT——Scale Invariant Feature Transform （尺度不變特征變換匹配） Reading papers_16(Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis) Transformer in Computer Vision Image Processing and Computer Vision_Review：HPatches A benchmark and evaluation of handcrafted and learned local descriptors——2017.04 Non-Local Deep Features for Salient Object Detection The default value of gamma will change from 'auto' to 'scale' in version 0.22 to account better for unscaled features. 【Computer Vision】復現分割網絡(1)——SegNet