SegNet 理解與文章結構


 

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

發表於2016年,作者 Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla, Senior Member

模型結構:

 

創新點:

在 encoder 部分的最大池化操作時記錄了最大值所在位置(索引),然后在 decoder 時通過對應的池化索引實現非線性上采樣,這樣在上采樣階段就無需學習。上采樣后得到的是一個稀疏特征圖,再通過普通的卷積得到稠密特征圖,再重復上采樣。最后再用激活函數得到onehot 分類結果。SegNet 主要比較的是 FCN,FCN解碼時用反卷積操作來獲得特征圖,再和對應 encoder 的特征圖相加得到輸出。SegNet 的優勢就在於不用保存整個 encoder 部分的特征圖,只需保存池化索引,節省內存空間;第二個是不用反卷積,上采樣階段無需學習,盡管上采樣完以后還要卷積學習。

 

訓練時設置:

對RGB的輸入圖像做 local contrast normalization,參數初始化用了 he_normal。

評價指標:

參數量,運行時間,內存消耗。

全局精度,分類平均精度,miou,邊界精度(semantic contour score,圖像對角線0.75%個像素的邊界誤差計算F1-score)[57,58,59]。這些指標都在權重根據類別調整和未調整兩個狀態下進行了評估

模型比較:

1、不同 decoder 變體性能比較,主要是 SegNet 和 FCN 的變體,來說明 SegNet 的內存節省和 encoder 部分特征圖的重要性

2、用了兩個數據集(道路景象分割,室內景象分割),來比較 SegNet 和傳統方法,以及 SegNet 和其余的深度學習方法(不同迭代次數下比較)

討論和展望:

SegNet 雖然在精確度上沒有提升,但是考慮到實際操作時的內存和時間消耗,SegNet 表現很好。未來希望設計效率更高的網絡,實現實時分割。同時也對深度學習分割結構的預測不確定性感興趣[69,70]。

備注:

最大池化為了實現平移不變性,在圖片有微小平移時依然可以魯棒。同時最大值一定程度上反映的是邊界信息

和DeconvNet的區別在於取消了全連接層,大大減少了參數數量。此外它在反池化后用的卷積,DeconvNet用的反卷積。

重要參考文獻:

[2] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, pp. 3431–3440, 2015.

[3] C. Liang-Chieh, G. Papandreou, I. Kokkinos, K. Murphy, and A. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” in ICLR, 2015.

[4] H. Noh, S. Hong, and B. Han, “Learning deconvolution network for semantic segmentation,” in ICCV, pp. 1520–1528, 2015.

[57] G. Csurka, D. Larlus, F. Perronnin, and F. Meylan, “What is a good evaluation measure for semantic segmentation?.,” in BMVC, 2013.

[58] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in https://arxiv.org/pdf/1605.06211v1.pdf, 2016.

[59] D. R. Martin, C. C. Fowlkes, and J. Malik, “Learning to detect natural image boundaries using local brightness, color, and texture cues,” IEEE transactions on pattern analysis and machine intelligence, vol. 26, no. 5,pp. 530–549, 2004.

[69] Y. Gal and Z. Ghahramani, “Dropout as a bayesian approximation: Insights and applications,” in Deep Learning Workshop, ICML, 2015.

[70] A. Kendall, V. Badrinarayanan, and R. Cipolla, “Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding,” arXiv preprint arXiv:1511.02680, 2015.

  編輯於 2019-04-21 19:36:13


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM