卷積神經網絡之VGG網絡模型學習


VGG:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

牛津大學 visual geometry groupVGGKaren Simonyan Andrew Zisserman 14年發表的論文。論文地址:https://arxiv.org/pdf/1409.1556.pdfalex的文章雖然都采用層和每層之間用pooling層分開,最后三層FC(Fully Connected全連接層)。但是AlexNet每層僅僅含有一個Convolution層,VGG每層含有多個(2~4)Convolution層。AlexNetfilter的大小7x7(很大)而VGGfilter的大小是3x3(最小)。它通過降低filter的大小,增加層數實現更佳的效果。以下為論文解讀。

ABSTRACT

研究了卷積網絡深度對其大型圖像識別的精准度的影響。主要貢獻是使用非常小(3×3)卷積濾波器,將神經網絡層次深度推到16-19層2014ImageNet分別在localisation和classification賽中獲得了第一名和第二名。 同時模型對其他數據集很好地泛化。

1 INTRODUCTION

本文介紹了ConvNet架構的另一個重要方面設計 - 深度。很多人嘗試改善2012年提出的AlexNet來實現更好的效果,ZFNet在第一卷積層使用更小的卷積(receptive window size)和更小的步長(stride)2,另一種策略是多尺度地在整張圖像上密集訓練和測試。

2 CONVNET CONFIGURATIONS

受到Ciresan et al.(2011); Krizhevsky et al. (2012).啟發。為了公平測試深度帶來的性能提升,VGGNet所有層的配置都遵循了同樣的原則。

2.1 ARCHITECTURE

輸入fixed-size 224 × 224 RGB image。數據預處理:每個像素上減去RGB的均值。在卷積層中小的Filter尺寸為3*3,有的地方使用1*1的卷積,這種1*1的卷積可以被看做是對輸入通道的線性變換。卷積步長(stride)設置為1個像素,3*3卷積層的填充(padding)設置為1個像素。池化層采用max-pooling,共有5層,池化是2*2,步長為2通過Relu進行非線性處理,增加網絡的非線性表達能力。不使用局部響應標准化(LRN),這種標准化並不能在ILSVRC數據集上提升性能,卻導致更多的內存消耗和計算時間。

2.2 CONFIGURATIONS

 

2.3 DISCUSSION

AlexNetZFNet不同,VGGNet在網絡中使用很小的卷積。用多個小filter代替大的filter更有好處。例如三個3*3卷積而不是一個7*7的卷積,因為每層后都有ReLU我們結合了三個非線性整流層而不是單一層,這使得決策功能更具區分性。同類的網絡例如Goodfellow et al11層網絡及GoogLeNet都采用的小的filter。

3 CLASSIFICATION FRAMEWORK

3.1 TRAINING

the input crops from multi-scale training images把原始 image縮放到最小邊S>224后在圖像上提取224*224crops,進行訓練。

mini-batch gradient descentbatch size256momentum =0.9,權重衰減0.0005

Dropout 在前兩個全連接層。Dropout ratio設置為0.5

3.2 TESTING

重縮放到尺寸Q,在網絡中測試。細節論文介紹的很詳細。

3.3 IMPLEMENTATION DETAILS

介紹了使用的機器及系統配置及訓練時間。

4 CLASSIFICATION EXPERIMENTS

4.1 SINGLE SCALE EVALUATION

首先實驗證明A-LRN network中用local response normalisation沒有提升模型A的性能。所以在更深層次architectures (B–E)作者沒有使用 normalisation。

訓練數據集數據提升方法scale jittering顯著的提高實驗結果。

 

4.2 MULTI-SCALE EVALUATION

與表3對比,采用scale jittering在多尺度上評估可以提高分類的准確度。如表4所示。

 

4.3 MULTI-CROP EVALUATION

5展示的是多剪裁評估及密集評估,及兩者結合的效果。單模型通過與 dense ConvNet evaluation對比,效果好一點,如果結合兩個方法,多剪裁和密集型則效果還可以提升一點。

 

4.4 CONVNET FUSION

結合多個卷積網絡的sofamax輸出,將多個模型融合在一起輸出結果。表6展示的是結果。

 

4.5 COMPARISON WITH THE STATE OF THE ART

與當前STATE OF THE ART的模型做比較。與之前12,13的網絡對比VGG優勢明顯。與GoogLeNet比較單模型好一點,7個網絡融合不如googleNet

5 CONCLUSION

本文的19層深的卷積神經網絡,在效果和泛化能力上有很好的成果。論證了深度對於cv問題的重要性。

本文參考

https://arxiv.org/pdf/1409.1556.pdf

http://m.blog.csdn.net/muyiyushan/article/details/62895202

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM