【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification


轉載請注明出處:https://www.cnblogs.com/White-xzx/

原文地址:https://arxiv.org/abs/1702.05891

Caffe-code:https://github.com/zhufengx/SRN_multilabel

如有不准確或錯誤的地方,歡迎交流~

  

  空間正則化網絡(Spatial Regularization Network, SRN),學習所有標簽間的注意力圖(attention maps),並通過可學習卷積挖掘標簽間的潛在關系,結合正則化分類結果和 ResNet-101 網絡的分類結果,以提高圖像分類表現。

【SRN的優勢】

  (1)挖掘圖像多標簽之間的語義和空間關聯性,較大地提高精度;

  (2)當網絡模型對具有空間相關標簽的圖片訓練后,注意力機制自適應地關注圖像的相關區域

  (3)圖像級標注,端到端訓練

    

【SRN網絡結構】

  (1)Main Net:ResNet-101,針對各標簽分別學習得到獨立的分類器。“Res-2048” 表示具有2048輸出的 ResNet 網絡模塊;

  (2)SRN 采用ResNet-101的視覺特征作為輸入,利用注意力機制學習得到標簽間的正則空間關系;

  (3)結合主網絡和SRN的分類結果得到最終的分類置信度;

  【Main Net】

  

  【SRN:注意力機制 fatt(·)】

   當圖像存在某個標簽時,更多的注意力應該放在相關的區域,標簽注意力圖編碼了標簽對應的豐富空間信息。l被標記則l相關區域的注意力值應該更高

   

  

   注意力圖能用於產生更魯棒的空間正則信息,但每個標簽的注意力圖總是和為1,可能會突出錯誤位置,造成錯誤的空間正則信息,論文提出使用加權注意力圖U,U解碼了標簽局部和全局的置信分數(confidence)。

  

  【SRN:fsr(·)結構】

  conv2、conv3多通道,512輸出,捕捉多標簽的語義關系;

  conv4單通道,2048輸出,4個kernel為一組纏繞1個相同的特征通道,不同kernel捕捉語義關聯標簽間的不同空間關系。

  

【Multiple Steps 分步訓練】

  

  分四個階段: ①只訓練主網絡, 基於 ResNet,pretrained on ImageNet,fcnn 和 fcls;

        ②固定 fcnn 和 fcls, 訓練 fatt;

        ③固定 fcnn, fcls和 fatt,訓練 fsr;

        ④聯合訓練整個網絡。

  圖像增強策略: ①resize為256×256

          ②裁剪4個角和中心區域,長寬在{256,224,192,168,128}中隨機選取

          ③resize為224×224

【實驗結果】

  

  

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM