論文閱讀|Decoders Matter for Semantic Segmentation:Data-Dependent Decoding Enables Flexible Feature Aggregation


概要

最近的語義分割方法都在探索encoder-decoder結構。一般這種結構中的encoder產生較小分辨率的feature map,然后最后的decoder通過雙線性上采樣來得到像素級的預測。作者認為這種方法太簡單粗暴是次優的,所以提出了一種新的上采樣方法:Dupsampling,這種方法最大的優勢在於它能應用於比較小分辨率的feature map,而且得到的結果比之前的更好。也就是這種方法重構能力強,靈活性高,而且計算消耗少。

DeepLabV3+的結構

雙線性上采樣是獨立於數據的,沒有考慮每一個像素預測之間的關聯,主要有兩個問題:

  1. 若從較高分辨率去恢復預測結果,計算消耗高

  2. 高分辨率的feature才能得到較精確的預測結果,不靈活限制了feature聚合策略的設計空間

方法

作者的一個重要發現就是一張圖像的label不是i.i.d(獨立同分布)的,包含着結構信息也就是存在關聯,因此可以壓縮label而且能夠依賴這種結構信息重構label而不會有太多的損失。所以作者先把label進行壓縮,壓縮首先將label分成多個格子,每個格子大小是t x t(就是圖像大小比例,如16,32),然后對每一個格子中的內容reshape成一個向量v,然后將v壓縮成x,然后堆疊x就能得到壓縮后的標簽

通過P將v線性映射到x,W是反映射矩陣也就是重構矩陣。通過下面公式最小化重構誤差,通過SGD迭代進行優化,使用PCA能夠求得閉合解P,W

以壓縮后的標簽為目標,可以構造如下損失函數,就能去訓練網絡,這個網絡能夠使F趨近於壓縮后的標簽,然后 F*W 計算就得到預測結果。

但作者沒有這么做,而是采用了更直接的方式,直接在label空間計算損失。這里的DUpsampling是F*W,相比於上面的公式,這個只是直接計算和label的損失,而不是上面計算和壓縮label的損失。

這里的DUsampling在本質上可以用1x1conv來實現,W就是卷積核的參數

但是DUpsampling與softmax的這種組合難以產生尖銳的激活(我認為是產生的各元素的概率差別很大),也就是概率分布比較平滑,這樣導致訓練時的損失計算會卡住。產生這種現象的原因作者認為可能是因為W是根據one-hot的label計算得到的,因此為了解決這個問題引入了 adaptive-temperature softmax

就是在計算時給各元素除以T即可,當T>0時,會變得比較soft;當T<0時,會變得比較sharp,另外T是可以自動的去學習得到

采用了上述方法后可以將low_level feature下采樣后與last feature融合,然后DUpsampling進行預測,這種方式比DeepLabV3+中的上采樣-融合-再上采樣的策略更靈活,計算消耗也小,速度更快。

1570440092014

實驗

PASCAL VOC val set 的結果

1570440047302

1570440065894

1570439928204

總結

提出了針對decoder的一個上采樣方法DUpsampling,最大的特點是在較低的分辨率進行上采樣也能夠得到較好的效果,不過需要去預訓練網絡得到1x1conv核參數W,從論文中看W好像是固定的,那如果隨着網絡的優化去學習W,那效果不知道會怎么樣。

參考

https://www.cnblogs.com/wangxiaocvpr/p/10763368.html

https://zhuanlan.zhihu.com/p/59044838


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM