論文閱讀筆記六十:Squeeze-and-Excitation Networks(SENet CVPR2017)


 

論文原址:https://arxiv.org/abs/1709.01507

github:https://github.com/hujie-frank/SENet

摘要

      卷積網絡的關鍵構件是卷積操作,在每層感受野的范圍內通過融合局部及channel-wise信息可以使網絡構建特征。一些研究關注空間組件,通過增強空間特征等級的編碼能力在增強表示力。本文重點在於通道之間的聯系,提出了SENet block,通過對通道之間的獨立性建模來自適應的調整通道之間的響應。可以將這些block進行堆疊得到SENet的結構。

介紹

      在卷積網絡的每一層,一些卷積核沿着輸入通道方向表示相鄰特征模式,在局部感受野的范圍內融合空間及channel-wise特征信息。通過交錯的組合卷積,下采樣,非線性層等構建網絡。CNN可以得到粗略的表示能力從而可以獲得分級的模式,同時具有一定的感受野。一些實驗發現可以通過將可以捕捉特征之間信息的一些學習機制融合到網路中進而可以提高網絡的表示能力。Inception系列的網絡通過結合多個尺寸的卷積核來提高性能。

      本文不同於以前的網絡,重點放在特征通道之間的聯系上,本文引入了一個新的結構單元SE block,通過對卷積特征之間的聯系進行建模來增強表示能力,最后,本文提出了一種特征校准機制,通過學習全局信息進而可以選擇一些有用的特征,而壓制作用較小的特征。

      SE building block的結構如下圖所示,對於任意的特征變換,本文都可以構建SE block進行特征校准。特征U首先會進行一個squeeze操作,產生一個通道描述器,其在對應空間維度上(HxW)融合feature maps。描述器函數的作用是channel-wise響應的全局分布的編碼,可以使來自全局感受野的信息可以被所有層利用。Squeeze操縱后面跟着一個excetion操作。采用一個簡單的門機制,將編碼的信息作為輸入,同時產生每個通道調制的權重。這些權重又反過來作用於feature map U用於產生SE的輸出進而送入到后續處理中。 

       可以通過簡單的堆疊SE block進行構建SENet。SE block可以作為網絡的一部分插入到網絡的某一層中。雖然block整體相似,但是在網絡中的不同深度,其性能也是不同的。在較前層,以類別不可知的情形激發信息特征。在網絡的后層,SE block增長的較為明確,以類別可分的模式對不同的輸入產生響應。

       總之,SE 特征校准得到的性能可以在網絡中進行累計。新的CNN網絡的搭建十分復雜,涉及到新參數及層的配置等。而SE模塊簡單,可以直接替換網絡中的模型。

相關工作

      更深的網絡:VGG及Inception表明,增加網絡的深度可以提高模型的表示能力及學習能力。對輸入分布進行正則化處理。在每層添加固定的BN層,同時,產生更平滑的外形邊界。ResNet通過identity-based的跳躍結構可以實現更深的網絡。Highways 網絡對短連接中的信息流進行正則化處理。

      一些工作着眼於改進網絡中包含的函數的計算形式。分組卷積已經成功應用於增加學習變換基數的方法。交叉通道相關性映射到一個新的特征組合,與空間結構無關,或者通過1x1的卷積進行聯合處理。大部分研究工作聚焦於減少模型及計算復雜度上。這里折射出一個假設就是通道關系可以看作是在局部感受野下與實例無關的函數組合。本文提出一種機制可以通過全局信息直接對通道之間的動態以及非線性依賴性進行建模。

      算法結構搜索:該部分工作主要位於神經進化領域,基於進化算法對網絡的拓撲結構進行搜索。然而,需要消耗大量的計算力。該方法在連續模型中找到記憶單元及分類模型中學習固定結構取得較大的成功。為了減少計算力,基於Lamarckian inheritance及不同的結構的高效的可替代算法被提出。通過將結構搜索看作是參數優化問題,隨機搜索及其他傳統的優化技術可以用於處理該問題。SE 可以基於搜索算法自動的進行build block。

      注意力及門機制:注意力機制可以看作是將計算資源分配信息量最重要的部分。其后接一個或者多個操作來表示更抽象的特征信息。本文SE block為輕量級門機制,通過對通道進行建模來提高模型的表示能力。

Squeeze and excitation block

      SE為計算單元,可以由任意輸入變換構建為方便起見,本文將Ftr看作是卷積操作。代表可學習的卷積核集合。其中,vc代表第c個卷積核的參數。Ftr的輸出表示如下,*代表卷積,

    其中,X = 為一個2D核,表示vc的一個通道與對應的x的通道進行卷積。由於結果是所有通道相加和。vc中存在潛在的依賴關系,但其與由卷積核得到的局部空間相關性糾纏在一起。因此,由卷積形成的通道關系是局部的。由於本文的目的是為了提高模型對信息特征的敏感性,以便后續的變換能夠更有效的利用這寫信息特征。本文增加了其獲得全局信息的能力。本文通過兩步來對通道的獨立性進行建模進而重新校准filter 響應,即Squeeze及Excetitation。SE block的結構如上圖所示。

Squeeze: Global Information Embeding

      為了解決利用channel 依賴性的如何利用的問題,本文首先考慮輸出特征的每個通道。每個可學習的卷積核都是在局部感受野內進行操作,因此,區域外的上下文信息無法被后續的變換單元U利用。

      為此,本文提出將全局空間信息進行壓縮得到一個單通道描述器。通過一個全局的平均池化操作來實現通道級別的統計。一般,一個統計量,通過在空間維度HxW上壓縮U實現。z中的第c個單元計算如下

      變換U的輸出可以解釋為,一些局部描述器的統計信息可以表示整個圖像。

Excetitation: Adaptive Recalibration

      為了利用由Squeeze聚合得到的信息。后面接了一些操作用於捕捉通道的獨立信息。其操作函數必須滿足兩個標准,I.具有靈活性。其必須能夠學習通道之間的非線性。II.能夠學習非互斥關系。這是由於需要對多個通道的特征信息進行強調,而不是類似one-hot表示那樣。本文選擇了一個簡單的sigmoid激活函數作為gating 機制。

      為了限制模型的計算量,及有利於泛化,本文在非線性部分,比如,降維層W及減少比率r,ReLU+升維層添加兩層全連接層來構建bootleneck進而對gating機制進行參數化。block的最終輸出如下

      Excetitation通過將輸入明確的描述器映射為一系列通道確定的權重。SEblock提高了特征的辨別性。

 實例

        SE block可以整合到常規的卷積網絡中,一般在插入非線性區域后增加幾個卷積層。本文以Inception網絡為例如下。

實驗

      

 

 

Reference

      [1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” in NIPS, 2012.

      [2] A. Toshev and C. Szegedy, “DeepPose: Human pose estimation via deep neural networks,” in CVPR, 2014.
      [3] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, 2015.
      [4] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” in
NIPS, 2015.
      [5] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with
convolutions,” in CVPR, 2015.
      [6] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in ICML,
2015.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM