1、GoogLeNet 模型簡介
GoogLeNet 是2014年Christian Szegedy提出的一種全新的深度學習結構,該模型獲得了ImageNet挑戰賽的冠軍。
2、GoogLeNet 模型的提出
1)在這之前的AlexNet、VGG等結構都是通過增大網絡的深度(層數)來獲得更好的訓練效果,但層數的增加會帶來很
多負作用,比如過擬合、梯度消失、梯度爆炸等。
2)解決這些問題的方法當然就是在增加網絡深度和寬度的同時減少參數,為了減少參數,自然就想到將全連接變成稀疏
連接。但是在實現上,全連接變成稀疏連接后實際計算量並不會有質的提升,因為大部分硬件是針對密集矩陣計算優化的,
稀疏矩陣雖然數據量少,但是計算所消耗的時間卻很難減少。
3)那么,有沒有一種方法既能保持網絡結構的稀疏性,又能利用密集矩陣的高計算性能。大量的文獻表明可以將稀疏矩陣
聚類為較為密集的子矩陣來提高計算性能,就如人類的大腦是可以看做是神經元的重復堆積,因此,GoogLeNet團隊提出了
Inception網絡結構,就是構造一種“基礎神經元”結構,來搭建一個稀疏性、高計算性能的網絡結構。
3、Inception 模塊結構
Inception模塊的提出是從另一種角度來提升訓練結果,其能更高效的利用計算資源,在相同的計算量下能提取到更多的特征,
從而提升訓練結果。
Inception歷經了V1、V2、V3、V4等多個版本的發展,不斷趨於完善。
1) Inception V1
通過設計一個稀疏網絡結構,但是能夠產生稠密的數據,既能增加神經網絡表現,又能保證計算資源的使用效率。
谷歌提出了最原始Inception的基本結構:
該結構將CNN中常用的卷積(1x1,3x3,5x5)、池化操作(3x3)堆疊在一起(卷積、池化后的尺寸相同,將通道相加),
一方面增加了網絡的寬度,另一方面也增加了網絡對尺度的適應性。
網絡卷積層中的網絡能夠提取輸入的每一個細節信息,同時5x5的濾波器也能夠覆蓋大部分接受層的的輸入。還可以進行
一個池化操作,以減少空間大小,降低過度擬合。在這些層之上,在每一個卷積層后都要做一個ReLU操作,以增加網絡
的非線性特征。
然而這個Inception原始版本,所有的卷積核都在上一層的所有輸出上來做,而那個5x5的卷積核所需的計算量就太大了,
造成了特征圖的厚度很大,為了避免這種情況,在3x3前、5x5前、max pooling后分別加上了1x1的卷積核,以起到了降低
特征圖厚度的作用,這也就形成了Inception v1的網絡結構,如下圖所示:
1x1的卷積核的作用:
1x1卷積的主要目的是為了減少維度,還用於修正線性激活(ReLU)。比如,上一層的輸出為100x100x128,經過具有
256個通道的5x5卷積層之后(stride=1,pad=2),輸出數據為100x100x256,其中,卷積層的參數為128x5x5x256= 819200。
而假如上一層輸出先經過具有32個通道的1x1卷積層,再經過具有256個輸出的5x5卷積層,那么輸出數據仍為為100x100x256,
但卷積參數量已經減少為128x1x1x32 + 32x5x5x256= 204800,大約減少了4倍。
基於Inception構建了GoogLeNet的網絡結構如下(共22層):
對上圖說明如下:
(1)GoogLeNet采用了模塊化的結構(Inception結構),方便增添和修改;
(2)網絡最后采用了average pooling(平均池化)來代替全連接層,該想法來自NIN(Network in Network),
事實證明這樣可以將准確率提高0.6%。但是,實際在最后還是加了一個全連接層,主要是為了方便對輸出進行靈活調整;
(3)雖然移除了全連接,但是網絡中依然使用了Dropout ;
(4)為了避免梯度消失,網絡額外增加了2個輔助的softmax用於向前傳導梯度(輔助分類器)。輔助分類器是將中間
某一層的輸出用作分類,並按一個較小的權重(0.3)加到最終分類結果中,這樣相當於做了模型融合,同時給網絡
增加了反向傳播的梯度信號,也提供了額外的正則化,對於整個網絡的訓練很有裨益。而在實際測試的時候,這兩個
額外的softmax會被去掉。
GoogLeNet的網絡結構圖細節如下:
注:上表中的“#3x3 reduce”,“#5x5 reduce”表示在3x3,5x5卷積操作之前使用了1x1卷積的數量。
GoogLeNet網絡結構明細表解析如下:
0、輸入
原始輸入圖像為224x224x3,且都進行了零均值化的預處理操作(圖像每個像素減去均值)。
1、第一層(卷積層)
使用7x7的卷積核(滑動步長2,padding為3),64通道,輸出為112x112x64,卷積后進行ReLU操作
經過3x3的max pooling(步長為2),輸出為((112 - 3+1)/2)+1=56,即56x56x64,再進行ReLU操作
2、第二層(卷積層)
使用3x3的卷積核(滑動步長為1,padding為1),192通道,輸出為56x56x192,卷積后進行ReLU操作
經過3x3的max pooling(步長為2),輸出為((56 - 3+1)/2)+1=28,即28x28x192,再進行ReLU操作
3a、第三層(Inception 3a層)
分為四個分支,采用不同尺度的卷積核來進行處理
(1)64個1x1的卷積核,然后RuLU,輸出28x28x64;
(2)96個1x1的卷積核,作為3x3卷積核之前的降維,變成28x28x96,然后進行ReLU計算,再進行
128個3x3的卷積(padding為1),輸出28x28x128;
(3)16個1x1的卷積核,作為5x5卷積核之前的降維,變成28x28x16,進行ReLU計算后,再進行32個
5x5的卷積(padding為2),輸出28x28x32;
(4)pool層,使用3x3的核(padding為1),輸出28x28x192,然后進行32個1x1的卷積,輸出28x28x32。
將四個結果進行連接,對這四部分輸出結果的第三維並聯,即64+128+32+32=256,最終輸出28x28x256。
3b、第三層(Inception 3b層)
(1)128個1x1的卷積核,然后RuLU,輸出28x28x128
(2)128個1x1的卷積核,作為3x3卷積核之前的降維,變成28x28x128,進行ReLU,再進行192個3x3的
卷積(padding為1),輸出28x28x192;
(3)32個1x1的卷積核,作為5x5卷積核之前的降維,變成28x28x32,進行ReLU計算后,再進行96個5x5
的卷積(padding為2),輸出28x28x96;
(4)pool層,使用3x3的核(padding為1),輸出28x28x256,然后進行64個1x1的卷積,輸出28x28x64。
將四個結果進行連接,對這四部分輸出結果的第三維並聯,即128+192+96+64=480,最終輸出輸出為28x28x480
第四層(4a,4b,4c,4d,4e)、第五層(5a,5b)……,與3a、3b類似,在此就不再重復。
從GoogLeNet的實驗結果來看,效果很明顯,差錯率比MSRA、VGG等模型都要低,對比結果如下表所示:
2) Inception V2
GoogLeNet憑借其優秀的表現,得到了很多研究人員的學習和使用,因此GoogLeNet團隊又對其進行了
進一步地發掘改進,產生了升級版本的GoogLeNet。
GoogLeNet設計的初衷就是要又准又快,而如果只是單純的堆疊網絡雖然可以提高准確率,但是會導致
計算效率有明顯的下降,所以如何在不增加過多計算量的同時提高網絡的表達能力就成為了一個問題。
Inception V2版本的解決方案就是修改Inception的內部計算邏輯,提出了比較特殊的“卷積”計算結構。
1、卷積分解(Factorizing Convolutions)
大尺寸的卷積核可以帶來更大的感受野,但也意味着會產生更多的參數,比如5x5卷積核的參數有25個,
3x3卷積核的參數有9個,前者是后者的25/9=2.78倍。因此,GoogLeNet團隊提出可以用2個連續的3x3
卷積層組成的小網絡來代替單個的5x5卷積層,即在保持感受野范圍的同時又減少了參數量,
如下圖:
那么這種替代方案會造成表達能力的下降嗎?通過大量實驗表明,並不會造成表達缺失。
可以看出,大卷積核完全可以由一系列的3x3卷積核來替代,那能不能再分解得更小一點呢?GoogLeNet團隊考慮了nx1的卷積核,如下圖所示,用3個3x1取代3x3卷積:
因此,任意nxn的卷積都可以通過1xn卷積后接nx1卷積來替代。GoogLeNet團隊發現在網絡的前期使用
這種分解效果並不好,在中度大小的特征圖(feature map)上使用效果才會更好(特征圖大小建議在12到20之間)。
2、降低特征圖大小
一般情況下,如果想讓圖像縮小,可以有如下兩種方式:
先池化再作Inception卷積,或者先作Inception卷積再作池化。但是方法一(左圖)先作pooling(池化)
會導致特征表示遇到瓶頸(特征缺失),方法二(右圖)是正常的縮小,但計算量很大。為了同時保持特征表示
且降低計算量,將網絡結構改為下圖,使用兩個並行化的模塊來降低計算量(卷積、池化並行執行,再進行合並)
使用Inception V2作改進版的GoogLeNet,網絡結構圖如下:
注:上表中的Figure 5指沒有進化的Inception,Figure 6是指小卷積版的Inception(用3x3卷積核代替5x5卷積核),
Figure 7是指不對稱版的Inception(用1xn、nx1卷積核代替nxn卷積核)。
經實驗,模型結果與舊的GoogleNet相比有較大提升,如下表所示:
3)Inception V3
Inception V3一個最重要的改進是分解(Factorization),將7x7分解成兩個一維的卷積(1x7,7x1),
3x3也是一樣(1x3,3x1),這樣的好處,既可以加速計算,又可以將1個卷積拆成2個卷積,使得網絡
深度進一步增加,增加了網絡的非線性(每增加一層都要進行ReLU)。另外,網絡輸入從224x224變為了299x299。
4)Inception V4
Inception V4研究了Inception模塊與殘差連接的結合。ResNet結構大大地加深了網絡深度,還極大地提升了
訓練速度,同時性能也有提升(ResNet的技術原理介紹見本博客之前的文章:大話深度殘差網絡ResNet)。
Inception V4主要利用殘差連接(Residual Connection)來改進V3結構,得到Inception-ResNet-v1,
Inception-ResNet-v2,Inception-v4網絡。
ResNet的殘差結構如下:
將該結構與Inception相結合,變成下圖:
通過20個類似的模塊組合,Inception-ResNet構建如下:
參考文獻
[1] 大話CNN經典模型:GoogLeNet(從Inception v1到v4的演進)
[2] Szegedy C , Liu W , Jia Y , et al. Going Deeper with Convolutions[J]. 2014.
[3] Ioffe S , Szegedy C . Batch normalization: accelerating deep network training by reducing internal covariate shift[C]// International Conference on International Conference on Machine Learning (ICML), 2015.
[4] Szegedy C , Vanhoucke V , Ioffe S , et al. Rethinking the Inception Architecture for Computer Vision[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR) ,2016.
[5] Szegedy C , Ioffe S , Vanhoucke V , et al. Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning[J]. 2016.