原文連接:https://blog.csdn.net/qq_40027052/article/details/79015827
注:這篇文章是上面連接作者的文章。在此僅作學習記錄作用。
如今深度學習發展火熱,但很多優秀的文章都是基於經典文章,經典文章的一句一詞都值得推敲很分析。此外,深度學習雖然一直被人詬病缺乏足夠令人信服的理論,但不代表我們不能感性分析,下面我們將對2014年奪得ImageNet的定位第一和分類第二的VGG網絡進行分析,在此過程中更多的是對這篇經典文章的感性分析,希望和大家共同交流產生共鳴。
論文下載地址:https://arxiv.org/pdf/1409.1556.pdf
開篇首先引用一段來自知乎對同年GoogleNet和VGG的描述:
“GoogLeNet和VGG的Classification模型從原理上並沒有與傳統的CNN模型有太大不同。大家所用的Pipeline也都是:訓練的時候各種數據Augmentation(裁剪,不同大小,調亮度,飽和度,對比度,偏色),裁剪送入CNN模型,Softmax,Backprop。測試的時候,盡量吧測試數據又各種Augmenting(裁剪,不同大小),把測試數據各種Augmenting后在訓練的不同模型上的結果再繼續Averaging出最后的結果”
需要注意的是,在VGGNet的6組實驗中,后面的4個網絡均使用了pre-trained model A的某些層來做參數初始化。雖然作者沒有提出該方法帶來的性能增益,但是我認為是很大的。不過既然是開篇,先來看看VGG的特點:
- 小卷積核。作者將卷積核全部替換為3x3(極少用了1x1);
- 小池化核。相比AlexNet的3x3的池化核,VGG全部為2x2的池化核;
- 層數更深特征圖更寬。基於前兩點外,由於卷積核專注於擴大通道數、池化專注於縮小寬和高,使得模型構架上更深和更寬的同時,計算量的增加放緩;
- 全連接轉卷積。網絡