最近在arxiv上讀到一篇很有意思的文章,題目叫“Oriented Response Networks ”,准備翻譯一下。參考文獻太多,就不一一粘過來了,
ORN文章閱讀筆記
一、 摘要
深度卷積神經網絡能夠從圖像中習得有效的表示,但是其處理局部和全局圖像旋轉的能力仍然有限。本文提出主動旋轉濾波器(ARFs),能夠主動旋轉,並產生位置和方向明確編碼的特征圖。一個ARF作為一個虛擬濾波器組,包含了濾波器自己和濾波器不同版本的旋轉。在反向傳播期間,一個ARF從全部的旋轉過的濾波器中收集誤差並更新。使用ARF的DCNN,稱為定向響應網絡(Oriented Response Network,ORN),可以產生類內旋轉不變深度特征,同時保持分類任務的類間區分度。由ORNs產生的定向響應(oriented response)同時可以被用於圖像和目標的方向估計。在多種先進的DCNN架構,例如VGG,ResNet和STN,我們觀察到,使用本文提出的ARFs替換原有的卷積濾波器,網絡參數的數量顯著減少,分類性能明顯提升。本文在常用的幾個基准測試中獲得了最佳結果。
二、 引言
方向信息編碼問題已經在手工設計的特征中廣泛研究,例如Gabor 特征[15, 17],HOG[9]和SIFT[31]. 在深度卷積神經網絡(DCNN)中,卷積與池化層的固有性質減輕了局部變化和扭曲的影響,然而,缺乏處理大圖像旋轉的能力限制了DCNN在許多視覺任務中的性能,如目標邊界檢測[16, 32],多方向目標檢測[6],圖像分類[20, 23]。
由於缺乏充分理解旋轉的能力,對於DCNN,最直接提升性能的方法是“基於旋轉學習”。[11, 47]卷積濾波器的可視化顯示了對於同一張圖像的不同旋轉能夠在底層、中層和較高層的濾波器中學習到多余的特征。比如,在VGG16模型中的第11層[10]。當目標中的部分是否旋轉與目標本身有關聯時,比如鳥的頭與鳥的身體,這要求使用更多的濾波器學習目標每一個部分的不同取向的多種組合。在這種情況下,網絡會放棄理解目標整體概念,轉而學習其有識別力的部分以作最終決策[48]。“基於旋轉學習”的策略需要大量網絡參數以生成旋轉冗余的濾波器,顯著增加了訓練時間與網絡過擬合風險。此外,由於有限的實例被隱含地分割為不同子集,訓練數據未被充分利用,增加了欠擬合的風險。為了解決這一問題,通常使用旋轉訓練樣本等方法擴充數據。擴充訓練集雖然提升了學習效果,但是通常造成網絡參數與訓練開銷的同步增加。
在本文中,我們提出主動旋轉濾波器(ARFs),利用定向響應卷積(ORConv)生成特征圖,其定向通道明確編碼判別模式的位置和方向信息。與常規濾波器相比,ARFs具有定義定向結構的額外維度。在卷積的過程中,每個ARF旋轉並產生特征圖,以從多個取向捕獲感受野的響應,如圖1所示。
具有定向通道的特征圖與分層網絡一起進行定向響應以生成高級特征表示,賦予DCNNs捕獲全局/局部旋轉的能力以及對於之前從未見過的旋轉樣本的泛化能力。
不需要引入額外的功能模塊或新的網絡拓撲,我們的方法使用DCNNs中最基本的元素(即,卷積運算符)實現旋轉的先驗知識。因此,它可以自然地與現代DCNN架構融合,將其升級為更具表達性和緊湊的定向響應網絡(ORN)。對於ORNs處理方向信息的過程,我們可以應用SIFT般的特征對齊以實現旋轉不變性或執行圖像/對象取向估計。本文的貢獻總結如下:
- 本文提出主動旋轉濾波器與定向響應卷積,改進了DCNN的最基本模塊,並賦予DCNN顯式編碼分層定向信息的能力。我們進一步將這種取向信息應用於旋轉不變圖像分類和對象取向估計。
- 本文將成功的DCNN(包括VGG,ResNet,TI-Pooling和STN)升級到ORN,以實現最先進的性能,並在常用基准上顯著減少網絡參數。
三、 相關工作
3.1 手工特征
定向信息已經在傳統手工制作特征中明確編碼,包括韋伯定律描述符[5],Gabor特征[15,17],SIFT [31]和LBP [33,1]。 SIFT描述符[31]及其變種利用局部區域仿射[25]找到特征點的主方向,根據該特征點累積圖像強度的局部梯度方向的統計以給出局部圖像結構的概括描述。利用基於主方向的特征對齊,SIFT實現了對旋轉的不變性和適度透視變換的魯棒性[2,12]。從局部鄰域中的圓形對稱相鄰像素集合的灰度值開始,LBP導出對於任何單調變換定義不變的算子的灰度[33,1]。通過使用比特循環移位來最小化LBP碼值來實現旋轉不變性。其他代表性描述符包括使用取向對齊的CF-HOG [39]和利用徑向梯度變換的旋轉不變的RI-HOG [30]。
3.2 深度卷積神經網絡
深度卷積神經網絡能夠處理圖像的形變、尺度變化、小的旋轉。這種能力來自於卷積操作符、冗余的卷積核,層次空間池化(hierarchical spatial pooling)[35, 20]的固有屬性。更多通用的赤化操作[26]允許考慮局部變形的不變性,但是不對應於特定的先驗知識。
3.2.1 數據擴充
給定足夠的、冗余的卷積核,數據擴充能夠達到局部/全局的不變性[43]。盡管數據擴充很有效,主要問題是學習擴充后的數據的全部變換通常需要更多的網絡參數,會顯著增加訓練開銷與過擬合風險。最近的TI-Pooling[23]通過使用並行網絡結構,在這些網絡的輸出端使用具有變換不變性的池化操作,改善了這個不足。
TI-Pooling的本質是包含多模板的學習與權值共享,能夠幫助尋找輸入圖像最簡潔的模板用於訓練,降低網絡學習的冗余。然而,由於TI-Pooling網絡內部的數據擴充,比起DCNN,網絡訓練和測試開銷顯著提升。
3.2.2 Scatting Wavelet Network.
小波散射網絡是一個變化不變的特征編碼器,定義了2層網絡,通過小波系數模的均值池化[3, 37],第一個網絡輸出類似於SIFT的特征描述符,第二個網絡提供了補足的不變性信息用於分類。通過計算具有相同的小波卷積與平均模量池化的下一層的不變系數,平均信息損失能夠從中得以恢復。
3.2.3 空間變換網絡(Spatial Transform Network)
代表性地,空間變換器網絡(STN)[20]引入了可以根據利用定位子CNN估計的變換矩陣來處理特征圖的附加網絡模塊。 STN提供了空間變換的一般框架,但是關於如何通過CNN精確地估計復變換參數的問題仍然沒有被很好地解決[14,34]。[21, 36]中,卷積限制玻爾茲曼機(C-RBM)引入transformation-aware濾波器,比如,它產生具有使用其特定圖像變換的概念的濾波器。 從群論的角度來看,Cohen et al. [8]證明圖像的空間變換可以反映在特征圖和濾波器中,提供了本文工作的理論基礎。 一些最近的工作[44,13]嘗試旋轉常規過濾器以實現紋理的旋轉不變性和圖像分類,然而,沒有將常規過濾器升級到具有定向通道的多向過濾器,它們關於捕獲分層和細微定向信息的能力仍然有限。