Pyramid scene parsing network. In Proc. CVPR, pages 2881–2890, 2017
目的:擴大感受野,盡可能的利用全局上下文信息(某種程度上,可以認為感受野大小可以認為是對上下文信息利用的程度)。
做法:
1.對骨干提取的feature map(channel =N)做池化得到特征金字塔,
2.然后通過1*1深度卷積降通道分別得到1*1,2*2,4*4,6*6的channel = 1/N的特征圖
3.對特征圖進行雙線性插值填充上采樣到原Feature map尺寸
4.與Feature map進行通道拼接(也叫級聯)得到channel數增加1倍的特征圖
5.再利用1*1卷積核將上述拼接后的特征圖 深度卷積降通道 得到與輸入特征圖Feature通道數一致的最終的語義分割預測結果。