填充可以增加輸出的高和寬。這常用來使輸出與輸入具有相同的高和寬。
步幅可以減小輸出的高和寬，例如輸出的高和寬僅為輸入的高和寬的 $1 / n$

多輸入通道和多輸出通道

前面我們用到的輸入和輸出都是二維數組，但真實數據的維度經常更高。例如，彩色圖像在高和寬2個維度外還有RGB（紅、綠、藍）3個顏色通道。假設彩色圖像的高和寬分別是 $h$

多輸入通道

多輸出通道

$1 \times 1$

使用多通道可以拓展卷積層的模型參數。
假設將通道維當作特征維，將高和寬維度上的元素當成數據樣本，那么 $1 \times 1$
$1 \times 1$

池化層

構造卷積核從而精確地找到了像素變化的位置。設任意二維數組X的i行j列的元素為X[i, j]。如果我們構造的卷積核輸出Y[i, j]=1，那么說明輸入中X[i, j]和X[i, j+1]數值不一樣。這可能意味着物體邊緣通過這兩個元素之間。但實際圖像里，我們感興趣的物體不會總出現在固定位置：即使我們連續拍攝同一個物體也極有可能出現像素位置上的偏移。這會導致同一個邊緣對應的輸出可能出現在卷積輸出Y中的不同位置，進而對后面的模式識別造成不便。

在本節中介紹池化（pooling）層，它的提出是為了緩解卷積層對位置的過度敏感性。

二維最大池化層和平均池化層

填充和步幅

同卷積層一樣，池化層也可以在輸入的高和寬兩側的填充並調整窗口的移動步幅來改變輸出形狀。池化層填充和步幅與卷積層填充和步幅的工作機制一樣。

多通道

在處理多通道輸入數據時，池化層對每個輸入通道分別池化，而不是像卷積層那樣將各通道的輸入按通道相加。這意味着池化層的輸出通道數與輸入通道數相等。

最大池化和平均池化分別取池化窗口中輸入元素的最大值和平均值作為輸出。
池化層的一個主要作用是緩解卷積層對位置的過度敏感性。
可以指定池化層的填充和步幅。
池化層的輸出通道數跟輸入通道數相同。

卷積神經網絡（LeNet）

對Fashion-MNIST數據集中的圖像進行分類。每張圖像高和寬均是28像素。我們將圖像中的像素逐行展開，得到長度為784的向量，並輸入進全連接層中。然而，這種分類方法有一定的局限性。

圖像在同一列鄰近的像素在這個向量中可能相距較遠。它們構成的模式可能難以被模型識別。
對於大尺寸的輸入圖像，使用全連接層容易導致模型過大。假設輸入是高和寬均為 $1, 000$

卷積層嘗試解決這兩個問題。一方面，卷積層保留輸入形狀，使圖像的像素在高和寬兩個方向上的相關性均可能被有效識別；另一方面，卷積層通過滑動窗口將同一卷積核與不同位置的輸入重復計算，從而避免參數尺寸過大。

卷積神經網絡就是含卷積層的網絡。本節里我們將介紹一個早期用來識別手寫數字圖像的卷積神經網絡：LeNet。這個名字來源於LeNet論文的第一作者Yann LeCun。LeNet展示了通過梯度下降訓練卷積神經網絡可以達到手寫數字識別在當時最先進的結果。這個奠基性的工作第一次將卷積神經網絡推上舞台，為世人所知。

LeNet模型

eNet分為卷積層塊和全連接層塊兩個部分。下面我們分別介紹這兩個模塊。

卷積層塊里的基本單位是卷積層后接最大池化層：卷積層用來識別圖像里的空間模式，如線條和物體局部，之后的最大池化層則用來降低卷積層對位置的敏感性。卷積層塊由兩個這樣的基本單位重復堆疊構成。在卷積層塊中，每個卷積層都使用 $5 \times 5$

卷積層塊的輸出形狀為(批量大小, 通道, 高, 寬)。當卷積層塊的輸出傳入全連接層塊時，全連接層塊會將小批量中每個樣本變平（flatten）。也就是說，全連接層的輸入形狀將變成二維，其中第一維是小批量中的樣本，第二維是每個樣本變平后的向量表示，且向量長度為通道、高和寬的乘積。全連接層塊含3個全連接層。它們的輸出個數分別是120、84和10，其中10為輸出的類別個數。

卷積神經網絡就是含卷積層的網絡。
LeNet交替使用卷積層和最大池化層后接全連接層來進行圖像分類。

LeNet模型代碼實現

 1 #Lenet模型實現
 2 import d2lzh as d2l
 3 import mxnet as mx
 4 from mxnet import autograd, gluon, init, nd
 5 from mxnet.gluon import loss as gloss, nn
 6 import time
 7 
 8 net = nn.Sequential()
 9 net.add(nn.Conv2D(channels=6, kernel_size=5, activation='sigmoid'),
10         nn.MaxPool2D(pool_size=2, strides=2),
11         nn.Conv2D(channels=16, kernel_size=5, activation='sigmoid'),
12         nn.MaxPool2D(pool_size=2, strides=2),
13         # Dense會默認將(批量大小, 通道, 高, 寬)形狀的輸入轉換成
14         # (批量大小, 通道 * 高 * 寬)形狀的輸入
15         nn.Dense(120, activation='sigmoid'),
16         nn.Dense(84, activation='sigmoid'),
17         nn.Dense(10))
18 
19 
20 # In[11]:
21 
22 
23 #構造一個高和寬均為28的單通道數據樣本，並逐層進行前向計算來查看每個層的輸出形狀。
24 X = nd.random.uniform(shape=(1, 1, 28, 28))
25 net.initialize()
26 for layer in net:
27     X = layer(X)
28     print(layer.name, 'output shape:\t', X.shape)
29 
30 
31 # In[12]:
32 
33 
34 batch_size = 256
35 train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size=batch_size)
36 
37 
38 # In[13]:

View Code

機器學習（ML）十之CNN

CNN-二維卷積層

二維互相關運算

二維卷積層

互相關運算和卷積運算

特征圖和感受野

填充和步幅

填充

步幅

多輸入通道和多輸出通道

多輸入通道

多輸出通道

$1 \times 1$

池化層

二維最大池化層和平均池化層

填充和步幅

多通道

卷積神經網絡（LeNet）

LeNet模型

LeNet模型代碼實現

免責聲明！

機器學習（ML）十之CNN

CNN-二維卷積層

二維互相關運算

二維卷積層

互相關運算和卷積運算

特征圖和感受野

填充和步幅

填充

步幅

多輸入通道和多輸出通道

多輸入通道

多輸出通道

1×1卷積層

池化層

二維最大池化層和平均池化層

填充和步幅

多通道

卷積神經網絡（LeNet）

LeNet模型

LeNet模型代碼實現

免責聲明！

$1 \times 1$