一、介绍
LeNet5模型由Yann LeCun在1998年提出,是LeNet多次迭代后的模型,应用于手写数字识别中。
二、模型结构
如图所示,LeNet5共包含7层(不包括输入),每一层都包含可训练参数(权重),输入是32×32像素的图像。下面逐层介绍LeNet-5的结构,卷积层用Cx表示,下采样层则被标记为Sx,全连接层为Fx,其中x是层索引;
- Layer C1:第一个卷积层,得到6个28×28的特征图。卷积核的大小为5×5;
- Layer S2:下采样层等同于池化层,我们一般使用最大池化操作。得到6个14×14的特征图。设置2×2的过滤器;
- Layer C3:第二个卷积层,得到16个5×5的特征图。卷积核的大小为5×5;
- Layer S4:下采样层等同于池化层。得到16个5×5的特征图。设置2×2的过滤器;
- Layer C5:第三个卷积层,得到120个1×1的特征图。卷积核的大小为5×5。因为S4得到的特征图也是5×5。所以得到的输出是1个数。这步相当于全连接。通常我们直接设置全连接层;
- Layer F6:全连接层,设置84个单元。激活函数可以使用Relu;
- Layer F7:输出层,10个单元。因为从0-9共10类,所以设置为10;激活函数使用softmax。
三、总结
LeNet5是一个简单的卷积神经网络,是卷积神经网络的一个开端。卷积神经网络使用三个层作为一个系列: 卷积,池化,非线性激活函数。
原论文《Gradient-Based Learning Applied to Document Recognition》
论文下载地址:http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf
本文参考了以下博客
https://www.jiqizhixin.com/graph/technologies/6c9baf12-1a32-4c53-8217-8c9f69bd011b
https://guoyuantao.github.io/2019/09/05/cnn-mo-xing-zhi-lenet-5/