LeNet-5(1998) | AlexNet(2012) | VGGNet(2014) | GoogLeNet(2014) | ResNet(2015) | DenseNet(2017) | |
輸入層 | 32*32*1 | 224*224*3 | 224*224*3 | 224*224*3 | 224*224*3 | |
卷積層 | 3 | 5 | 13 | |||
卷積核 | 5*5 | 11*11,5*5,3*3 | 3*3,1*1 | 5*5,3*3,1*1 | 7*7,3*3,1*1 | 3*3,1*1 |
池化層 | 2 | 3 | 5 | |||
池化核 | 2*2 | 3*3 | 2*2 | 3*3;全局平均池化:7*7 | 3*3 | 2*2 |
全連接層 | 2 | 3 | 3 | |||
輸出層 | 10(0-9每個數字的概率) | 1000(ImageNet圖像分類) | 1000(ImageNet圖像分類) | 1000(ImageNet圖像分類) | 1000(ImageNet圖像分類) | |
網絡層次 | 5 | 8 | 16 or 19 | 22 | 152 | 121 |
結構 | 3卷積(2池化)+2全連接 | 5卷積(3池化)+3全連接 | 5卷積組(5池化)+2全連接圖像特征+1全連接分類特征 | 2單獨卷積層(2池化)+9inception結構+1全局平均池化+1全連接(softmax) | “瓶頸殘差模塊”:依次由1*1,3*3,1*1三個卷積層堆積而成,提高計算效率 | dense block:BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3); 每個DenseBlock的之間層由BN−>Conv(1×1)−>averagePooling(2×2)組成 |
特點 | CNN開山之作,定義了CNN 的基本組件,確立了其基本 架構 |
原始圖片為256*256,使用了數據增廣隨機剪裁為224*224;擁有更深的網絡,使用多CPU訓練,RELU,dropout,LRN,局部響應歸一化 | 采用了Pre-training的方式(先訓練一部分網絡,確保這部分網絡穩定后,再在這基礎上逐漸加深;卷積層使用了更小的filter尺寸和間隔,增加了非線性表達能力,減少了參數量 | 引入Inception結構代替單純的卷積+激活傳統操作,中間層增加輔助LOSS單元(目的是計算損失時讓低層的特征也有很好的區分能力),幫助網絡收斂,最后的全連接層全部替換為全局平均池化,減少參數,精度更高,訓練更快 | 層數非常深; |
密集連接,緩解了梯度消失的問題,加強特征傳播,鼓勵特征復用,極大地減少了參數量,減少了計算量;缺點:內存占用非常高 |
結構圖 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |