ECCV2018
論文:Receptive Field Block Net for Accurate and Fast Object Detection
論文鏈接:https://arxiv.org/abs/1711.07767
代碼鏈接:https://github.com/ruinmessi/RFBNet
為了模擬人視覺系統的感受野,增強CNN的特征提取能力,本文提出RFB(Receptive Field Block)結構,並應用在SSD上。從
后文可以看出,RFB中使用了多尺度的dilated convolution,增加了感受野的范圍。
(近年不少感受野的文章,包括Inception family, ASPP, and Deformable CNN)
1、RFB結構
RFB的結構如上圖所示,首先用了多個分支,每個分支使用不同的卷積核(跟inception 一樣);之后在每個分支上,分別接不同rate的dilated conv,
在大的conv上,使用更大的dilated conv;最后將不同尺度的特征圖進行concat,並使用1*1來調整特征維度。
(1)多分支結構。借鑒了Inception V4 和Inception-ResNet V2,包括如下兩種。其中RFB-s使用了更多的分支和更小的卷積核(用於淺層特征提取)。為了減少參數,使用兩個3*3替代
5*5,並使用不對稱卷積替換n*n。
(2)dilated conv。在不增加參數的基礎上,擴大感受野
2、幾種感受野結構的對比
四種結構對比,一目了然。
3、網絡結構
RFB Net仍然使用SSD的多尺度特征結構,在其中插入RFB module。有圖可知,在淺層中,使用了RFB-s,並在
中間層中用了stride=2的RFB(后面特征圖太小,無法使用5*5的卷積核)。
4、實驗
(1)RFB max pooling 和avg pooling是什么?
在https://github.com/ruinmessi/RFBNet/issues/48中,作者給出了回答:
RFB-max pooling就是dilated max pooling layer,而不是dilated conv layer。從實驗上看效果提升最明顯,也說明擴大感受野的好處還是很明顯的。
(2)在conv4_3上,將default box從4增加到6,有些許提升。