一、介紹
LeNet5模型由Yann LeCun在1998年提出,是LeNet多次迭代后的模型,應用於手寫數字識別中。
二、模型結構
如圖所示,LeNet5共包含7層(不包括輸入),每一層都包含可訓練參數(權重),輸入是32×32像素的圖像。下面逐層介紹LeNet-5的結構,卷積層用Cx表示,下采樣層則被標記為Sx,全連接層為Fx,其中x是層索引;
- Layer C1:第一個卷積層,得到6個28×28的特征圖。卷積核的大小為5×5;
- Layer S2:下采樣層等同於池化層,我們一般使用最大池化操作。得到6個14×14的特征圖。設置2×2的過濾器;
- Layer C3:第二個卷積層,得到16個5×5的特征圖。卷積核的大小為5×5;
- Layer S4:下采樣層等同於池化層。得到16個5×5的特征圖。設置2×2的過濾器;
- Layer C5:第三個卷積層,得到120個1×1的特征圖。卷積核的大小為5×5。因為S4得到的特征圖也是5×5。所以得到的輸出是1個數。這步相當於全連接。通常我們直接設置全連接層;
- Layer F6:全連接層,設置84個單元。激活函數可以使用Relu;
- Layer F7:輸出層,10個單元。因為從0-9共10類,所以設置為10;激活函數使用softmax。
三、總結
LeNet5是一個簡單的卷積神經網絡,是卷積神經網絡的一個開端。卷積神經網絡使用三個層作為一個系列: 卷積,池化,非線性激活函數。
原論文《Gradient-Based Learning Applied to Document Recognition》
論文下載地址:http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf
本文參考了以下博客
https://www.jiqizhixin.com/graph/technologies/6c9baf12-1a32-4c53-8217-8c9f69bd011b
https://guoyuantao.github.io/2019/09/05/cnn-mo-xing-zhi-lenet-5/