CVPR 2020
Motivation
1. 以前的分割網絡都是只關注像素級別的預測,忽略了像素分組。但本文認為語義分割可以分為explicit pixel-wise prediction and implicit pixel grouping. 。為了解決像素分組的問題,論文引入了SA model,並且其結果還可以更好的指導像素的預測
2. 受Squeeze-and-Excitation Networks【SENet】的啟發,該文中SANet擴展SENet並引入了channel attention通過通道之間的相關性把重要的特征增強,不重要的特征減弱,從而讓提取的特征指向性更強。
SANet與SENet的不同之處:
(1)SA模塊的注意通道采用平均池化的方法下采樣本特征圖,得到的是attention convolution channel,然后再上采樣到主干網絡中,【上采樣的目的是為了和RESNet有相同的維度】
(2)SE model不能保持spatial information,而SA model以擴張的FCN作為主干網絡,增加了spatial features來進行pixel level prediction【SA保留了spatial information】
Pixel-group
- Pixel grouping: 強調像素之間的聯系
- 我們引入了像素分組的第二個子任務,直接鼓勵屬於同一類的像素被分組在一起,而不受空間限制
Model







w(歐米伽)用於重新標定輸入的feature map通道的學習權重。【怎么重新標定的呢?見下圖】

備注:1、藍色-Squeeze操作,Global average pooling用來計算channel-wise的統計量;粉色-Excitation操作;黃色-Reweight操作;
圖片來源於:https://blog.csdn.net/Z199448Y/article/details/88866965


SANet:

LOSS Function:

可以看到作者語義分割網絡一共三個損失,其中Lmask 和Lden計算每個像素的分類損失並求平均,也就是經典的語義分割損失。而Lcat計算的是圖像多標簽二分類的分類損失
Questions:
1. 論文作者沒有提到用Sigmoid或Softmax計算注意力,而是直接用卷積結果作為注意力
2.grouping在哪里體現? 感覺本質上還是per-pixel classification,只是從softmax變成了每類的二分類。
