最早出現在DeeplLab系列中,作用:可以在不改變特征圖尺寸的同時增大感受野,擯棄了pool的做法(丟失信息);
我們設: kernel size = k, dilation rate = d, input size = W1, output size = W2, stride=s, padding=p;
Dilation convolution(擴張卷積)的原理其實也比較簡單,就是在kernel各個像素點之間加入0值像素點,變向的增大核的尺寸從而增大感受野。
結構如下:
如上圖所示,(a)是我們常見的卷積核,可以看成d=1的擴張卷積,核的尺寸為3,感受野為3;(b)是d=2的擴張卷積,核的尺寸上升為5=2*(3-1)+1,如果與(a)疊加使用的話感受野則為7;(c)是d=4的擴張卷積,核的尺寸上升為9=4*(k-1)+1,若與(a)(b)疊加則感受野區域為15;
(1)經過dilation rate放大后,fliter大小上升為:d*(k-1)+1;
(2)擴張卷積的輸入和輸出特征圖的尺寸關系如下:
ps:在s=1,k=3時,令d = p,則輸出特征圖尺寸不變;
擴張卷積可用於圖像分割、文本分析、語音識別等領域;
存在的問題:棋盤效應(特征圖不是處處可導!)
解決方法:使用鋸齒狀的卷積核