經典的CNN網絡模型概述
接下來幾天,將把自己最近讀的關於圖片分類的經典網絡模型論文整理一遍。大概做個摘要。這些論文都是在imagenet上1.2 million數據訓練出來的。
由於從這些預訓練的網絡訓練的deep feature有良好的泛化能力,可以應用到其他不同的CV問題,而且比傳統的hand-craft feature要好,所以得到廣泛應用。
從AlexNet論文說起,ImageNet Classification with Deep Convolutional Neural Networks。
在ImageNet LSVRC-2010 2012表現突出
top-1誤差率37.5%,以及top-5誤差率17.0%
網絡有6000萬個參數和650,000個神經元
網絡結構五個卷積層,以及某些卷積層后的池化層,以及最后的三個全連接層
引入正則化方法dropout
ReLU修正線性單元的引入,比tanh等要快的多
論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
接下來的NIN論文,Network In Network
NIN利用Global average pooling去掉了FC layer, 大大減少了模型大小
利用網絡中的網絡思想
論文地址:https://arxiv.org/pdf/1312.4400v3.pdf
VGG模型論文,VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
可以看成是加深版本的AlexNet. 都是conv layer + FC layer
論文地址:https://arxiv.org/pdf/1409.1556.pdf
GoogLeNet模型,也稱inceptionV1 Going Deeper with Convolutions
受NIN啟發,各種sub-network和inception結構的設計,通過精心設計的設計實現的,允許增加網絡的深度和寬度,提高了網絡內部計算資源的利用率。
將1x1,3x3,5x5的conv和3x3的pooling,stack在一起,一方面增加了網絡的width,另一方面增加了網絡對尺度的適應性。
論文地址:http://arxiv.org/abs/1409.4842
InceptionV2論文 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
改進V1,加入了BN層,減少了內部neuron的數據分布發生變化也就是文中說的Internal Covariate Shift,每一層的輸入都服從N(0, 1)的高斯分布。
同是受到VGG啟發用2個3x3的conv替代inception模塊中的5x5,既降低了參數數量,提高訓練速度。
論文地址: http://arxiv.org/abs/1502.03167
inceptionV3論文 Rethinking the Inception Architecture for Computer Vision
在v2的基礎上改進是使用了分解(Factorization),將7x7分解成兩個一維的卷積(1x7,7x1),將3x3分解成兩個一維的卷積(1x3,3x1),加速計算的同時使得網絡深度增加和網絡的非線性更強。
網絡輸入從224x224變為了299x299,還設計了35x35/17x17/8x8等模塊。
論文地址:http://arxiv.org/abs/1512.00567
inceptionV4論文 Inception-ResNet and the Impact of Residual Connections on Learning
Inception模塊結合Residual Connection可以極大地加速訓練,同時性能也有提升。
開源了Inception-ResNet v2網絡模型后,經過優化精簡Inception v4模型,相比Inception-ResNet v2網絡模型性能差不多,但是網絡復雜程度降低。
論文地址:http://arxiv.org/abs/1602.07261
Resnet模型論文,Deep Residual Learning for Image Recognition
引入殘差,解決深層次的網絡帶來acc下降問題
論文地址:https://arxiv.org/pdf/1512.03385v1.pdf