Multi-scale Interactive Network for Salient Object Detection
CVPR20
摘要
本文提出MINet。在編碼器中使用聚合交互模塊AIM(aggregate interaction modules)來聚合相鄰level的特征,由於僅使用小的up/down采樣率,引入了很少噪聲。在解碼器中使用自交互模型SIM(self-interaction module)來利用multi-scale特征。
由於尺度變化造成類別不平衡,這削弱了交叉熵的效果,也造成預測的空間不一致性。因此本文提出consistency-enhanced loss強調前景背景的差異,保持類間一致性。
網絡結構
圖2左列是encoder-transport layer的連接方式,右列是transport layer-decoder的連接方式。
圖中d是AIM聚合交互模塊,h是SIM自交互模塊
圖3是整體的結構,圖示是采用VGG16做特征提取,本文移除vgg的最后一個max-pooling層來保持最后一個卷積層的細節信息。每個AIM利用相鄰level的特征,為本分辨率(主分支)提供有效的補充。SIM從特定level提取multi-scale特征,FU由conv+bn+relu組成,FU融合SIM的特征,並輸入到前一層里。
輸入320x320x3的圖像, 使用vgg16提取multi-level特征,使用AIM聚合特征,通過SIM和FU進一步處理,在 g 的監督下生成預測 p。
在AIM中主分支B1,SIM中主分支B0均由輔助分支補充信息,
AIMs
受[54]啟發,提出AIM,
圖4是聚合交互模塊的細節圖
在不同level做融合會增強不同分辨率圖的表達能力:在淺層融合可進一步增強細節信息並抑制噪聲。在中間層融合可以同時考慮語義信息和細節信息,且網絡會自動調整不同信息的比例。在頂層融合考慮相鄰分辨率時會挖掘豐富的語義信息。
f 表示vgg提取的特征,在transformation步做conv+bn+relu。在interaction步通過pooling+近鄰插值+conv將輔助分支(B0 B2)合並到B1支。通過conv把三支fuse,同時有一個殘差連接。
如公式1,I是identity mapping,M是brach merging。第一行公式的+號表示殘差連接
SIMs
圖5是自交互模塊的細節圖
也遵循transformation-interaction-fusion策略,先使用升/降采樣把特征圖的分辨率統一。
公式2,+號表示SIM的殘差連接
公式3,
\(f_{add}\)指本層AIM和后一層SIM+FU輸出的特征的相加結果。
consistency-enhanced loss
CEL loss 用於解決類別不均衡問題
預測輸出p,如公式4
,p是01之間的概率,N是batch_size個數。
本文提出CEL損失,如公式6,使用預測和gt的交集除以他們的並集。當預測結果和gt相差最大時,loss=1;相差很小時,loss也小。
導數公式對比如下,
CEL的偏導公式里除了1-2g,其他的項是image-specific,考慮了全局約束。而BCEL的項是position-specific,只在乎獨立的像素點的預測。
總的loss如下,簡便起見權重=1