Multi-scale Interactive Network for Salient Object Detection


Multi-scale Interactive Network for Salient Object Detection

CVPR20

摘要

本文提出MINet。在編碼器中使用聚合交互模塊AIM(aggregate interaction modules)來聚合相鄰level的特征,由於僅使用小的up/down采樣率,引入了很少噪聲。在解碼器中使用自交互模型SIM(self-interaction module)來利用multi-scale特征。

由於尺度變化造成類別不平衡,這削弱了交叉熵的效果,也造成預測的空間不一致性。因此本文提出consistency-enhanced loss強調前景背景的差異,保持類間一致性。

網絡結構

圖2左列是encoder-transport layer的連接方式,右列是transport layer-decoder的連接方式。

圖中d是AIM聚合交互模塊,h是SIM自交互模塊

Snipaste_2020-11-08_09-39-56

圖3是整體的結構,圖示是采用VGG16做特征提取,本文移除vgg的最后一個max-pooling層來保持最后一個卷積層的細節信息。每個AIM利用相鄰level的特征,為本分辨率(主分支)提供有效的補充。SIM從特定level提取multi-scale特征,FU由conv+bn+relu組成,FU融合SIM的特征,並輸入到前一層里。

Snipaste_2020-11-08_10-05-14

輸入320x320x3的圖像, 使用vgg16提取multi-level特征,使用AIM聚合特征,通過SIM和FU進一步處理,在 g 的監督下生成預測 p。

在AIM中主分支B1,SIM中主分支B0均由輔助分支補充信息,

AIMs

受[54]啟發,提出AIM,

圖4是聚合交互模塊的細節圖

Snipaste_2020-11-08_09-45-50

在不同level做融合會增強不同分辨率圖的表達能力:在淺層融合可進一步增強細節信息並抑制噪聲。在中間層融合可以同時考慮語義信息和細節信息,且網絡會自動調整不同信息的比例。在頂層融合考慮相鄰分辨率時會挖掘豐富的語義信息。

f 表示vgg提取的特征,在transformation步做conv+bn+relu。在interaction步通過pooling+近鄰插值+conv將輔助分支(B0 B2)合並到B1支。通過conv把三支fuse,同時有一個殘差連接。

如公式1,I是identity mapping,M是brach merging。第一行公式的+號表示殘差連接

Snipaste_2020-11-08_10-45-25

SIMs

圖5是自交互模塊的細節圖

Snipaste_2020-11-08_09-46-26

也遵循transformation-interaction-fusion策略,先使用升/降采樣把特征圖的分辨率統一。

公式2,+號表示SIM的殘差連接

Snipaste_2020-11-08_10-54-20

公式3,

Snipaste_2020-11-08_10-55-06

\(f_{add}\)指本層AIM和后一層SIM+FU輸出的特征的相加結果。

consistency-enhanced loss

CEL loss 用於解決類別不均衡問題

預測輸出p,如公式4

Snipaste_2020-11-08_10-59-45

Snipaste_2020-11-08_11-00-08,p是01之間的概率,N是batch_size個數。

本文提出CEL損失,如公式6,使用預測和gt的交集除以他們的並集。當預測結果和gt相差最大時,loss=1;相差很小時,loss也小。

Snipaste_2020-11-08_11-01-43

導數公式對比如下,

Snipaste_2020-11-08_11-02-48

CEL的偏導公式里除了1-2g,其他的項是image-specific,考慮了全局約束。而BCEL的項是position-specific,只在乎獨立的像素點的預測。

總的loss如下,簡便起見權重=1

Snipaste_2020-11-08_11-06-04


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM