論文閱讀筆記六十一:Selective Kernel Networks(SKNet CVPR2019)


 

論文原址:https://arxiv.org/pdf/1903.06586.pdf

github: https://github.com/implus/SKNet

摘要

       在標准的卷積網絡中,每層網絡中神經元的感受野的大小都是相同的。在神經學中,視覺神經元感受野的大小是由刺激機制構建的,而在卷積網絡中卻很少考慮這個因素。本文提出的方法可以使神經元對於不同尺寸的輸入信息進行自適應的調整其感受野的大小。building block為Selective Kernel單元。其存在多個分支,每個分支的卷積核的尺寸都不同。不同尺寸的卷積核最后通過softmax進行融合。分支中不同注意力產生不同的有效感受野。多個SK單元進行堆疊構成SKNet。

介紹

       在上世紀貓的前視覺皮層神經元的局部感受野激發了卷積網絡的產生。在視覺皮層中,相同區域的神經元的局部感受野的大小是不同的,從而可以在相同的處理階段中獲得不同尺寸的空間信息。該思想被Inception系列網絡完美的應用,在其building block中,3x3,5x5,7x7的卷積通過簡單的拼接來得到多尺寸信息。

       然而,在設計卷積網絡時,神經元感受野的其他屬性並沒有被考慮到。比如感受野尺寸的自適應調整。大量實驗證明,視覺皮層的神經元的感受野尺寸是受激勵調制的。像Inception這種具有多個分支的網絡其內部存在一種潛在的機制可以在下一個卷積層根據輸入的內容調整神經元感受野的大小,這是因為下一個卷積層通過線性組合將不同分支的特征進行融合。但是線性組合的方法不足於提供網絡強大的調整能力。

       本文提出了一種非線性的方法融合來自不同核的特征進而實現感受野不同尺寸的調整。引入了"Selective Kernel"卷積,其包含了三個操作:Split,Fuse,Select,Split操作產生多個不同核尺寸的通道與神經元的不同感受野尺寸相關。Fuse操作組合融合來自多通道的信息從而獲得一個全局及可理解性的表示用於進行權重選擇。Select操作根據挑選得到的權重對不同核尺寸的feature map進行融合。

Selective Kernel Convolution

       本文提出了具有不同尺寸核的SK卷積核用於實現神經元的不同感受野大小。該卷積包含Split,Fuse,Select三個操作,如下圖所示。其包含兩個分支。因此,本例中只包含兩個不同尺寸大小的kernel,可以很容易擴展到多尺寸的卷積核中。

       Split:對於任意輸入的feature map,首先進行了兩個變換,,其核的尺寸分別為3x3,5x5,上述兩個變換都是由group/depthwise 卷積,ReLU,BN等操作組成。為了進一步提高網絡的性能,5x5的卷積核替換為一個dilation為2的3x3的卷積核。

       Fuse:本文的目標是實現神經元不同尺寸感受野的自適應調整。一種基本思路是設計一個門機制用於控制流入下一個卷積層中不同分支的信息流。該Gate需要融合所有分支的信息。本文首先進行簡單的像素級相加融合。

       然后使用全局平均池化操作來編碼全局信息,進而產生channel-wise統計信息。,s中的第c個元素通過在U的HxW維度上進行壓縮計算得到。

       接下來,會產生一個緊湊的特征用於精確及調整的選擇,通過一個全連接層得到,同時,進行了降維處理。

       為了驗證W中d的作用,引入了一個衰減率r,如下,其中C代表通道數。

       Select: 通道間的soft attention可以選擇不同尺寸的信息,其被緊湊的特征信息Z引導。在channel-wise應用softmax操作。

 

       在本例中的兩個分支中,B是多余的,因為ac + bc = 1,根據不同核的注意力權重得到的輸出特征V如下

網絡結構

       本文中每個SK單元由一個1x1的卷積,SK卷積,及1x1卷積組成,原網絡中所有具有較大尺寸的卷積核都替換為SK卷積從而可以使網絡選擇合適的感受野大小。在SK單元中,存在一個參數M,用於決定路徑的數量,即選擇不同卷積核尺寸進行融合的數量。G用於控制每個路徑的基數,r用於控制fuse操作中的參數數量。本文實驗網絡結構如下。

 

實驗

 

Reference

       [1] M. Abdi and S. Nahavandi. Multi-residual networks. arxiv preprint. arXiv preprint arXiv:1609.05672, 2016.

       [2] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.

       [3] J. Carreira, H. Madeira, and J. G. Silva. Xception: A technique for the experimental evaluation of dependability in modern computers. Transactions on Software Engineering, 1998.

       [4] D. Chen, S. Zhang, W. Ouyang, J. Yang, and Y. Tai. Person search via a mask-guided two-stream cnn model. arXiv preprint arXiv:1807.08107, 2018.

       [5] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. In NIPS, 2017.

       [6] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. arXiv preprint arXiv:1703.06211, 2017.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM