【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

本文轉載自查看原文 2018-12-31 23:14 1068 深度學習/ caffe/ 多標簽

如有不准確或錯誤的地方，歡迎交流~

　　空間正則化網絡(Spatial Regularization Network, SRN)，學習所有標簽間的注意力圖(attention maps)，並通過可學習卷積挖掘標簽間的潛在關系，結合正則化分類結果和 ResNet-101 網絡的分類結果，以提高圖像分類表現。

【SRN的優勢】

　　（1）挖掘圖像多標簽之間的語義和空間關聯性，較大地提高精度；

　　（2）當網絡模型對具有空間相關標簽的圖片訓練后，注意力機制自適應地關注圖像的相關區域

　　（3）圖像級標注，端到端訓練

【SRN網絡結構】

　　（1）Main Net：ResNet-101，針對各標簽分別學習得到獨立的分類器。“Res-2048” 表示具有2048輸出的 ResNet 網絡模塊；

　　（2）SRN 采用ResNet-101的視覺特征作為輸入，利用注意力機制學習得到標簽間的正則空間關系；

　　（3）結合主網絡和SRN的分類結果得到最終的分類置信度；

　　【Main Net】

　　【SRN：注意力機制 fatt(·)】

　　當圖像存在某個標簽時，更多的注意力應該放在相關的區域，標簽注意力圖編碼了標簽對應的豐富空間信息。l被標記則l相關區域的注意力值應該更高

　　注意力圖能用於產生更魯棒的空間正則信息，但每個標簽的注意力圖總是和為1，可能會突出錯誤位置，造成錯誤的空間正則信息，論文提出使用加權注意力圖U，U解碼了標簽局部和全局的置信分數（confidence）。

　　【SRN：fsr(·)結構】

　　conv2、conv3多通道，512輸出，捕捉多標簽的語義關系；

　　conv4單通道，2048輸出，4個kernel為一組纏繞1個相同的特征通道，不同kernel捕捉語義關聯標簽間的不同空間關系。

【Multiple Steps 分步訓練】

　　分四個階段: ①只訓練主網絡, 基於 ResNet，pretrained on ImageNet，fcnn 和 fcls；

　　　　　　　　②固定 fcnn 和 fcls, 訓練 fatt；

　　　　　　　　③固定 fcnn, fcls和 fatt，訓練 fsr；

　　　　　　　　④聯合訓練整個網絡。

　　圖像增強策略： ①resize為256×256

　　　　　　　　　　②裁剪4個角和中心區域，長寬在{256,224,192,168,128}中隨機選取

　　　　　　　　　　③resize為224×224

【實驗結果】

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。