論文閱讀筆記五十九:Res2Net: A New Multi-scale Backbone Architecture(CVPR2019)


 

論文原址:https://arxiv.org/abs/1904.01169

摘要

       視覺任務中多尺寸的特征表示十分重要,作為backbone的CNN的對尺寸表征能力越強,性能提升越大。目前,大多數多尺寸的表示方法是layer-wise的。本文提出的Res2Net通過在單一殘差塊中對殘差連接進行分級,進而可以達到細粒度層級的多尺度表征,同時,提高了網絡每層的感受野大小。該Res2Net結構可以嵌入到其他網絡模型中。

介紹

       在自然場景中,視覺模式經常表現多尺寸特征。如下圖所示,(1)一張圖片中可能會存在不同尺寸的物體。比如,沙發及被子的大小是不同的。(2)一個物體自身的上下文信息可能會覆蓋比自身更大范圍的區域。比如,依賴於桌子的上下文信息,進而判斷桌子上的黑色斑點是杯子還是筆筒。(3)不同尺寸的感知信息對於像細粒度分類及分割等對於理解目標物局部信息的任務十分重要。

 

       為了獲得多尺寸表示能力,要求特征提取可以以較大范圍的感受野來描述不同尺寸的 object/part/context。CNN通過簡單的堆疊卷積操作得到coarse-to-fine的多尺寸特征。早期的工作像VGG,Alex通過簡單的堆積卷積讓多尺寸信息成為了可能。后來,通過組合不同大小的卷積核來獲得多尺寸信息,比如Inception系列。作為backbone的CNN表現更高效,多尺寸的表征能力更強。

       本文提出了簡單高效的多尺寸模塊,不同於以前的模型提高layer-wise的多尺寸表征能力,本文以更精細的水平提高模型的多尺寸表征能力。為此,本文將3x3xn的卷積核替換為3x3xw的group filters,其中,n = w x s。如下圖所示,更小的filter group通過類似於殘差連接的方式進行連接,從而提高輸出的表示數量,首先,將輸入分成幾部分,一組filter從對應的一組輸入feature map中提取信息。前面得到的信息送到另一組filter中作為輸入。重復此操作,知道處理完所有輸入feature map。最后,每組輸出的feature map通過拼接操作送入1x1的卷積中用於進行特征融合。此方法引入了一個新的維度scale,用於控制group的數量。scale同height,width,cardinality相似,都為基本量,本文實驗發現,通過增加scale的數量的提升效果要比其他量要好。

Res2Net

       上圖是backbone網絡中比較常見的結構。本文將其中的3x3的卷積核替換為幾組小的卷積核並以殘差的方式進行連接,在計算力相同的條件下獲得更強的多尺寸表征信息。如上圖b所示,將輸入feature map分為s個subset,由xi表示,,每個subuset的寬及高相同,但是通道數為輸入feature map的1/s。除了x1,每個xi都有一個3x3的卷積核Ki,其輸出由yi表示。同時,子集xi與Ki-1的輸出相加並作為Ki的輸入。為了忽略參數量,並提高s,x1中並不存在3x3的卷積核,因此,yi的表達式如下

       值得注意的是,每個3x3的卷積核可以接受來自該層前面的所有分離的特征,每次分類特征經過3x3的卷積處理后,其輸出的感受野要比輸入更大,由於不同的組合方式,Res2Net的輸出包含不同大小及數量的感受野。在Res2Net中,Split以多尺寸的方式進行處理,有利於提取全局及局部特征。為了融合不同尺寸的信息,將輸出送入到1x1的卷積中。分離拼接操作可以增強卷積的處理能力。為了減少參數量,忽略了第一個group的卷積,這也可以看作是feature map的再利用。

       本文使用一個s作為控制尺寸維度的參數量。s越大,多尺寸表征能力更強,通過引入拼接操作,並未增加計算及內存消耗。如下圖所示,Res2Net可以很方便的與現代模型進行結合。

       

實驗

 

Reference

       [1] S. Belongie, J. Malik, and J. Puzicha. Shape matching and object recognition using shape contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(4):509–522, 2002.

       [2] A. Borji, M.-M. Cheng, H. Jiang, and J. Li. Salient object detection: A benchmark. IEEE Transactions on Image Processing, 24(12):5706–5722, 2015.
       [3] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille.Deeplab: Semantic image segmentation with deep convolutional nets,atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4):834–848, 2018.

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM