近幾年來,卷積神經網絡(Convolutional Neural Networks,簡稱CNN)在圖像識別中取得了非常成功的應用,成為深度學習的一大亮點。CNN發展至今,已經有很多變種,其中有幾個經典模型在CNN發展歷程中有着里程碑的意義,它們分別是:LeNet、Alexnet、Googlenet、VGG、DRL等,接下來將分期進行逐一介紹。
在之前的文章中,已經介紹了卷積神經網絡(CNN)的技術原理,細節部分就不再重復了,有興趣的同學再打開鏈接看看(大話卷積神經網絡),在此簡單回顧一下CNN的幾個特點:局部感知、參數共享、池化。
1、局部感知
人類對外界的認知一般是從局部到全局、從片面到全面,類似的,在機器識別圖像時也沒有必要把整張圖像按像素全部都連接到神經網絡中,在圖像中也是局部周邊的像素聯系比較緊密,而距離較遠的像素則相關性較弱,因此可以采用局部連接的模式(將圖像分塊連接,這樣能大大減少模型的參數),如下圖所示:
2、參數(權值)共享
每張自然圖像(人物、山水、建築等)都有其固有特性,也就是說,圖像其中一部分的統計特性與其它部分是接近的。這也意味着這一部分學習的特征也能用在另一部分上,能使用同樣的學習特征。因此,在局部連接中隱藏層的每一個神經元連接的局部圖像的權值參數(例如5×5),將這些權值參數共享給其它剩下的神經元使用,那么此時不管隱藏層有多少個神經元,需要訓練的參數就是這個局部圖像的權限參數(例如5×5),也就是卷積核的大小,這樣大大減少了訓練參數。如下圖
3、池化
隨着模型網絡不斷加深,卷積核越來越多,要訓練的參數還是很多,而且直接拿卷積核提取的特征直接訓練也容易出現過擬合的現象。回想一下,之所以對圖像使用卷積提取特征是因為圖像具有一種“靜態性”的屬性,因此,一個很自然的想法就是對不同位置區域提取出有代表性的特征(進行聚合統計,例如最大值、平均值等),這種聚合的操作就叫做池化,池化的過程通常也被稱為特征映射的過程(特征降維),如下圖:
回顧了卷積神經網絡(CNN)上面的三個特點后,下面來介紹一下CNN的經典模型:手寫字體識別模型LeNet5。
LeNet5誕生於1994年,是最早的卷積神經網絡之一, 由Yann LeCun完成,推動了深度學習領域的發展。在那時候,沒有GPU幫助訓練模型,甚至CPU的速度也很慢,因此,LeNet5通過巧妙的設計,利用卷積、參數共享、池化等操作提取特征,避免了大量的計算成本,最后再使用全連接神經網絡進行分類識別,這個網絡也是最近大量神經網絡架構的起點,給這個領域帶來了許多靈感。
LeNet5的網絡結構示意圖如下所示:
LeNet5由7層CNN(不包含輸入層)組成,上圖中輸入的原始圖像大小是32×32像素,卷積層用Ci表示,子采樣層(pooling,池化)用Si表示,全連接層用Fi表示。下面逐層介紹其作用和示意圖上方的數字含義。
1、C1層(卷積層):6@28×28
該層使用了6個卷積核,每個卷積核的大小為5×5,這樣就得到了6個feature map(特征圖)。
(1)特征圖大小
每個卷積核(5×5)與原始的輸入圖像(32×32)進行卷積,這樣得到的feature map(特征圖)大小為(32-5+1)×(32-5+1)= 28×28
卷積過程如下圖所示:
卷積核與輸入圖像按卷積核大小逐個區域進行匹配計算,匹配后原始輸入圖像的尺寸將變小,因為邊緣部分卷積核無法越出界,只能匹配一次,如上圖,匹配計算后的尺寸變為Cr×Cc=(Ir-Kr+1)×(Ic-Kc+1),其中Cr、Cc,Ir、Ic,Kr、Kc分別表示卷積后結果圖像、輸入圖像、卷積核的行列大小。
(2)參數個數
由於參數(權值)共享的原因,對於同個卷積核每個神經元均使用相同的參數,因此,參數個數為(5×5+1)×6= 156,其中5×5為卷積核參數,1為偏置參數
(3)連接數
卷積后的圖像大小為28×28,因此每個特征圖有28×28個神經元,每個卷積核參數為(5×5+1)×6,因此,該層的連接數為(5×5+1)×6×28×28=122304
2、S2層(下采樣層,也稱池化層):6@14×14
(1)特征圖大小
這一層主要是做池化或者特征映射(特征降維),池化單元為2×2,因此,6個特征圖的大小經池化后即變為14×14。回顧本文剛開始講到的池化操作,池化單元之間沒有重疊,在池化區域內進行聚合統計后得到新的特征值,因此經2×2池化后,每兩行兩列重新算出一個特征值出來,相當於圖像大小減半,因此卷積后的28×28圖像經2×2池化后就變為14×14。
這一層的計算過程是:2×2 單元里的值相加,然后再乘以訓練參數w,再加上一個偏置參數b(每一個特征圖共享相同的w和b),然后取sigmoid值(S函數:0-1區間),作為對應的該單元的值。卷積操作與池化的示意圖如下:
(2)參數個數
S2層由於每個特征圖都共享相同的w和b這兩個參數,因此需要2×6=12個參數
(3)連接數
下采樣之后的圖像大小為14×14,因此S2層的每個特征圖有14×14個神經元,每個池化單元連接數為2×2+1(1為偏置量),因此,該層的連接數為(2×2+1)×14×14×6 = 5880
3、C3層(卷積層):16@10×10
C3層有16個卷積核,卷積模板大小為5×5。
(1)特征圖大小
與C1層的分析類似,C3層的特征圖大小為(14-5+1)×(14-5+1)= 10×10
(2)參數個數
需要注意的是,C3與S2並不是全連接而是部分連接,有些是C3連接到S2三層、有些四層、甚至達到6層,通過這種方式提取更多特征,連接的規則如下表所示:
例如第一列表示C3層的第0個特征圖(feature map)只跟S2層的第0、1和2這三個feature maps相連接,計算過程為:用3個卷積模板分別與S2層的3個feature maps進行卷積,然后將卷積的結果相加求和,再加上一個偏置,再取sigmoid得出卷積后對應的feature map了。其它列也是類似(有些是3個卷積模板,有些是4個,有些是6個)。因此,C3層的參數數目為(5×5×3+1)×6 +(5×5×4+1)×9 +5×5×6+1 = 1516
(3)連接數
卷積后的特征圖大小為10×10,參數數量為1516,因此連接數為1516×10×10= 151600
4、S4(下采樣層,也稱池化層):16@5×5
(1)特征圖大小
與S2的分析類似,池化單元大小為2×2,因此,該層與C3一樣共有16個特征圖,每個特征圖的大小為5×5。
(2)參數數量
與S2的計算類似,所需要參數個數為16×2 = 32
(3)連接數
連接數為(2×2+1)×5×5×16 = 2000
5、C5層(卷積層):120
(1)特征圖大小
該層有120個卷積核,每個卷積核的大小仍為5×5,因此有120個特征圖。由於S4層的大小為5×5,而該層的卷積核大小也是5×5,因此特征圖大小為(5-5+1)×(5-5+1)= 1×1。這樣該層就剛好變成了全連接,這只是巧合,如果原始輸入的圖像比較大,則該層就不是全連接了。
(2)參數個數
與前面的分析類似,本層的參數數目為120×(5×5×16+1) = 48120
(3)連接數
由於該層的特征圖大小剛好為1×1,因此連接數為48120×1×1=48120
6、F6層(全連接層):84
(1)特征圖大小
F6層有84個單元,之所以選這個數字的原因是來自於輸出層的設計,對應於一個7×12的比特圖,如下圖所示,-1表示白色,1表示黑色,這樣每個符號的比特圖的黑白色就對應於一個編碼。
該層有84個特征圖,特征圖大小與C5一樣都是1×1,與C5層全連接。
(2)參數個數
由於是全連接,參數數量為(120+1)×84=10164。跟經典神經網絡一樣,F6層計算輸入向量和權重向量之間的點積,再加上一個偏置,然后將其傳遞給sigmoid函數得出結果。
(3)連接數
由於是全連接,連接數與參數數量一樣,也是10164。
7、OUTPUT層(輸出層):10
Output層也是全連接層,共有10個節點,分別代表數字0到9。如果第i個節點的值為0,則表示網絡識別的結果是數字i。
(1)特征圖大小
該層采用徑向基函數(RBF)的網絡連接方式,假設x是上一層的輸入,y是RBF的輸出,則RBF輸出的計算方式是:
上式中的Wij的值由i的比特圖編碼確定,i從0到9,j取值從0到7×12-1。RBF輸出的值越接近於0,表示當前網絡輸入的識別結果與字符i越接近。
(2)參數個數
由於是全連接,參數個數為84×10=840
(3)連接數
由於是全連接,連接數與參數個數一樣,也是840
通過以上介紹,已經了解了LeNet各層網絡的結構、特征圖大小、參數數量、連接數量等信息,下圖是識別數字3的過程,可對照上面介紹各個層的功能進行一一回顧: