VGG:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
牛津大學 visual geometry group(VGG)Karen Simonyan 和Andrew Zisserman 於14年發表的論文。論文地址:https://arxiv.org/pdf/1409.1556.pdf。與alex的文章雖然都采用層和每層之間用pooling層分開,最后三層FC層(Fully Connected全連接層)。但是AlexNet每層僅僅含有一個Convolution層,VGG每層含有多個(2~4)個Convolution層。AlexNet的filter的大小7x7(很大)而VGG的filter的大小是3x3(最小)。它通過降低filter的大小,增加層數實現更佳的效果。以下為論文解讀。
ABSTRACT
研究了卷積網絡深度對其大型圖像識別的精准度的影響。主要貢獻是使用非常小(3×3)卷積濾波器,將神經網絡層次深度推到16-19層。2014年ImageNet分別在localisation和classification賽中獲得了第一名和第二名。 同時模型對其他數據集很好地泛化。
1 INTRODUCTION
本文介紹了ConvNet架構的另一個重要方面設計 - 深度。很多人嘗試改善2012年提出的AlexNet來實現更好的效果,ZFNet在第一卷積層使用更小的卷積(receptive window size)和更小的步長(stride)2,另一種策略是多尺度地在整張圖像上密集訓練和測試。
2 CONVNET CONFIGURATIONS
受到Ciresan et al.(2011); Krizhevsky et al. (2012).啟發。為了公平測試深度帶來的性能提升,VGGNet所有層的配置都遵循了同樣的原則。
2.1 ARCHITECTURE
輸入fixed-size 224 × 224 RGB image。數據預處理:每個像素上減去RGB的均值。在卷積層中小的Filter尺寸為3*3,有的地方使用1*1的卷積,這種1*1的卷積可以被看做是對輸入通道的線性變換。卷積步長(stride)設置為1個像素,3*3卷積層的填充(padding)設置為1個像素。池化層采用max-pooling,共有5層,池化是2*2,步長為2。通過Relu進行非線性處理,增加網絡的非線性表達能力。不使用局部響應標准化(LRN),這種標准化並不能在ILSVRC數據集上提升性能,卻導致更多的內存消耗和計算時間。
2.2 CONFIGURATIONS
2.3 DISCUSSION
與AlexNet和ZFNet不同,VGGNet在網絡中使用很小的卷積。用多個小filter代替大的filter更有好處。例如三個3*3卷積而不是一個7*7的卷積,因為每層后都有ReLU,我們結合了三個非線性整流層而不是單一層,這使得決策功能更具區分性。同類的網絡例如Goodfellow et al的11層網絡及GoogLeNet都采用的小的filter。
3 CLASSIFICATION FRAMEWORK
3.1 TRAINING
the input crops from multi-scale training images把原始 image縮放到最小邊S>224后在圖像上提取224*224crops,進行訓練。
mini-batch gradient descent,batch size為256,momentum =0.9,權重衰減0.0005。
Dropout 在前兩個全連接層。Dropout ratio設置為0.5。
3.2 TESTING
重縮放到尺寸Q,在網絡中測試。細節論文介紹的很詳細。
3.3 IMPLEMENTATION DETAILS
介紹了使用的機器及系統配置及訓練時間。
4 CLASSIFICATION EXPERIMENTS
4.1 SINGLE SCALE EVALUATION
首先實驗證明A-LRN network中用local response normalisation沒有提升模型A的性能。所以在更深層次architectures (B–E)作者沒有使用 normalisation。
訓練數據集數據提升方法scale jittering顯著的提高實驗結果。
4.2 MULTI-SCALE EVALUATION
與表3對比,采用scale jittering在多尺度上評估可以提高分類的准確度。如表4所示。
4.3 MULTI-CROP EVALUATION
表5展示的是多剪裁評估及密集評估,及兩者結合的效果。單模型通過與 dense ConvNet evaluation對比,效果好一點,如果結合兩個方法,多剪裁和密集型則效果還可以提升一點。
4.4 CONVNET FUSION
結合多個卷積網絡的sofamax輸出,將多個模型融合在一起輸出結果。表6展示的是結果。
4.5 COMPARISON WITH THE STATE OF THE ART
與當前STATE OF THE ART的模型做比較。與之前12,13的網絡對比VGG優勢明顯。與GoogLeNet比較單模型好一點,7個網絡融合不如googleNet。
5 CONCLUSION
本文的19層深的卷積神經網絡,在效果和泛化能力上有很好的成果。論證了深度對於cv問題的重要性。
本文參考
https://arxiv.org/pdf/1409.1556.pdf
http://m.blog.csdn.net/muyiyushan/article/details/62895202