占坑,記錄
1、lenet-5的結構以及部分原理
2、caffe對於lenet-5的代碼結構
圖一
圖一是整個LeNet-5的結構圖,要點有:convolutions、subsampling、full connection、gaussian connection。
要點拆分:
1、convolution 是卷積操作,對應的概念有卷積核、特征圖、權值共享。
圖二
圖二表示CNN中卷積操作。對卷積的要點解釋:1、紅色框內為2*2卷積核。2、藍色框內為3*4的輸入圖像。3、綠色框為3*3的特征圖。注意:綠框中未包含偏置項。如加入偏置項則每個輸出多加上同一個偏置B,此時類似如:aw+bx+ey+fz+B bw+cx+fy+gz+B等。所謂的權值共享是每個卷積運算使用同一個卷積核,在上圖中使用的是同一個卷積核,即共享權值。
卷積的優勢:1、sparse interactions 2、parameter sharing 3、equivariant respections
sparse interactions————》》圖三是效果圖。藍色框中是全連接神經網絡,紅色框是卷積網絡。
圖三
卷積相對於全連接是稀疏的。優勢:1、參數更少 2、計算量降低。那么效果比較呢?
圖四
圖四是多層結構的聯系圖,可知通過增加網絡層數,保留全局的特征。
parameter sharing————》》在圖二部分已經分析完畢。優勢:同樣是減少了參數量。
equivariant respections——————》》當輸入圖像通過平移后,卷積的結果也會平移。
如上所示:數字7從右向左平移,對應紅色框里的layer-1也進行了平移。同時注意:單就卷積操作而言,這種等變換在縮放、旋轉上是不成立的。
對比:整個CNN操作(包括卷積層以及后面的層),主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。
參考:
《Deep Learning》Ian Goodfellow,Yoshua Bengio,AND Aaron Courville
《Gradient-Based Learning Applied to Document Recognition》YANN LECUN, MEMBER, IEEE, LEON BOTTOU, YOSHUA BENGIO, AND PATRICK HAFFNER
http://yann.lecun.com/exdb/lenet/index.html