無監督學習可以用於獲取特征,優於SIFT方法。
神經網絡的輸入是一對圖片。輸入彩色圖片可以增加網絡的訓練性能。但是文章全部用的灰度圖像。圖片size是64*64。
三個基本的神經網絡框架:2-channel, Siamese, Pseudo-siamese。
Essentially these architectures stem from the different way that each of them attempts to address the following question: 我們要在描述子上找相似性還是說跳過描述子計算這一步,繼續做相似性估計呢?
3.2 Additional models
Deep network。將大的卷積層分解成小的卷積核(如:3*3的卷積核),層與層之間用Relu激勵函數分開。提高了網絡內部的非線性。這一變化可以進一步提升性能。
Central-surround two-stream network。
高精度像素和低精度像素(是通過降采樣獲得的)作為兩個輸入流,中心的高精度被計算了兩次,使得更加關注中心部分的像素點,而更少的關注周圍的像素點。有利於提高匹配精度,因為池化被用於降采樣的圖片,所以在匹配期間允許外圍像素具有更多的變化。請注意,在這種情況下,總輸入尺寸減少了2倍,訓練更快,這也是另一個實際的優勢。
Spatial pyramid pooling (SPP) network for comparing patches。這基本上相當於插入在卷積層和網絡的完全連接層之間的空間金字塔池化層。SSP這一層增加了最后一層全連接層的特征,可以使得全連接層的輸入維度是確定大小的。因此考慮將SSP用於上面提及的網絡。
損失函數:hinge損失和L2正則。
文章的損失函數為:
其中,O是網絡的輸出,是預測值,y是實際的label。
L1歸一化和L2歸一化范數的詳解和區別 見這篇文章,非常詳細了。
http://blog.csdn.net/u014381600/article/details/54341317
一句話,加了正則的好處就是提高測試集的正確率。
優化算法用的是ASGD。