RFB Net筆記


ECCV2018

論文:Receptive Field Block Net for Accurate and Fast Object Detection
論文鏈接:https://arxiv.org/abs/1711.07767
代碼鏈接:https://github.com/ruinmessi/RFBNet

       為了模擬人視覺系統的感受野,增強CNN的特征提取能力,本文提出RFB(Receptive Field Block)結構,並應用在SSD上。從

后文可以看出,RFB中使用了多尺度的dilated convolution,增加了感受野的范圍。

(近年不少感受野的文章,包括Inception family, ASPP, and Deformable CNN)

1、RFB結構

        RFB的結構如上圖所示,首先用了多個分支,每個分支使用不同的卷積核(跟inception 一樣);之后在每個分支上,分別接不同rate的dilated conv,

在大的conv上,使用更大的dilated conv;最后將不同尺度的特征圖進行concat,並使用1*1來調整特征維度。

  (1)多分支結構。借鑒了Inception V4 和Inception-ResNet V2,包括如下兩種。其中RFB-s使用了更多的分支和更小的卷積核(用於淺層特征提取)。為了減少參數,使用兩個3*3替代

5*5,並使用不對稱卷積替換n*n。

          

 

  (2)dilated conv。在不增加參數的基礎上,擴大感受野

2、幾種感受野結構的對比

   四種結構對比,一目了然。

 3、網絡結構

       RFB Net仍然使用SSD的多尺度特征結構,在其中插入RFB module。有圖可知,在淺層中,使用了RFB-s,並在

中間層中用了stride=2的RFB(后面特征圖太小,無法使用5*5的卷積核)。

  

4、實驗

       (1)RFB max pooling 和avg pooling是什么?

                在https://github.com/ruinmessi/RFBNet/issues/48中,作者給出了回答:

                RFB-max pooling就是dilated max pooling layer,而不是dilated conv layer。從實驗上看效果提升最明顯,也說明擴大感受野的好處還是很明顯的。

  (2)在conv4_3上,將default box從4增加到6,有些許提升。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM