Squeeze-and-Attention Networks for Semantic Segmentation


CVPR 2020

Motivation

1. 以前的分割網絡都是只關注像素級別的預測,忽略了像素分組。但本文認為語義分割可以分為explicit pixel-wise prediction and implicit pixel grouping. 。為了解決像素分組的問題,論文引入了SA model,並且其結果還可以更好的指導像素的預測

2. 受Squeeze-and-Excitation Networks【SENet】的啟發,該文中SANet擴展SENet並引入了channel attention通過通道之間的相關性把重要的特征增強,不重要的特征減弱,從而讓提取的特征指向性更強。

 

SANet與SENet的不同之處:

(1)SA模塊的注意通道采用平均池化的方法下采樣本特征圖,得到的是attention convolution channel,然后再上采樣到主干網絡中,【上采樣的目的是為了和RESNet有相同的維度】

(2)SE model不能保持spatial information,而SA model以擴張的FCN作為主干網絡,增加了spatial features來進行pixel level prediction【SA保留了spatial information】

 

Pixel-group

  1. Pixel grouping: 強調像素之間的聯系
  2. 我們引入了像素分組的第二個子任務,直接鼓勵屬於同一類的像素被分組在一起,而不受空間限制

Model

 

 

 

 

 

 

 

 

w(歐米伽)用於重新標定輸入的feature map通道的學習權重。【怎么重新標定的呢?見下圖】

 

 

備注:1、藍色-Squeeze操作,Global average pooling用來計算channel-wise的統計量;粉色-Excitation操作;黃色-Reweight操作;

 圖片來源於:https://blog.csdn.net/Z199448Y/article/details/88866965

 

 

 SANet:

 

 LOSS Function:

 可以看到作者語義分割網絡一共三個損失,其中Lmask 和Lden計算每個像素的分類損失並求平均,也就是經典的語義分割損失。而Lcat計算的是圖像多標簽二分類的分類損失

 

Questions:

 1. 論文作者沒有提到用Sigmoid或Softmax計算注意力,而是直接用卷積結果作為注意力

 2.grouping在哪里體現? 感覺本質上還是per-pixel classification,只是從softmax變成了每類的二分類。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM