定義: 卷積神經網絡每一層輸出的特征圖(feature map)上的像素點在原始圖像上映射的區域大小。

設網絡共有 N 層卷積層, 卷積核采用正方形, 記第 i 層卷積核大小為 \(size_i\), 步長為 \(stride_i\), 當我們計算 \(feature \space map\) 經過第 N 層卷積(或者池化), 輸出的一個 "像素"對應的感受野時, 計算過程如下(從上到下計算, 計算最后所得值就是對應的感受野), \(field_{N}\) 表示經過第 N 層卷積之后的 feature map 上一個像素點對應的感受野(只看寬度).
\[\begin {align*} &field_{N} = size_N \\ &\quad \quad \vdots \\ &field_{i} = (field_{i+1} - 1) \times stride_{i} + size_i \\ &\quad \quad \vdots \\ &field_{1} = (field_{2} - 1) \times stride_{1} + size_1\\ \end {align*} \]
\(field_{1}\) 即為所求感受野.
\(\color{red}{舉例如下(\bf ZFNet)}\):

第 8 層為最后一個 feature map 大小為 13x13 這一層, 171 為該層 3 個像素在圖片的感受野大小
layer | size | stride | 計算 |
---|---|---|---|
8th | 3 | 1 | 3 |
7th | 3 | 1 | (3-1)×1 + 3 = 5 |
6th | 3 | 1 | (5-1)×1 + 3 = 7 |
5th | 3 | 1 | (7-1)×1 + 3 = 9 |
4th | 3 | 2 | (9-1)×2 + 3 = 19 |
3rd | 5 | 2 | (19-1)×2 + 5 = 41 |
2nd | 3 | 2 | (41-1)×2 + 3 = 83 |
1st | 7 | 2 | (83-1)×2 + 2 = 171 |