SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
發表於2016年,作者 Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla, Senior Member
模型結構:
創新點:
在 encoder 部分的最大池化操作時記錄了最大值所在位置(索引),然后在 decoder 時通過對應的池化索引實現非線性上采樣,這樣在上采樣階段就無需學習。上采樣后得到的是一個稀疏特征圖,再通過普通的卷積得到稠密特征圖,再重復上采樣。最后再用激活函數得到onehot 分類結果。SegNet 主要比較的是 FCN,FCN解碼時用反卷積操作來獲得特征圖,再和對應 encoder 的特征圖相加得到輸出。SegNet 的優勢就在於不用保存整個 encoder 部分的特征圖,只需保存池化索引,節省內存空間;第二個是不用反卷積,上采樣階段無需學習,盡管上采樣完以后還要卷積學習。
訓練時設置:
對RGB的輸入圖像做 local contrast normalization,參數初始化用了 he_normal。
評價指標:
參數量,運行時間,內存消耗。
全局精度,分類平均精度,miou,邊界精度(semantic contour score,圖像對角線0.75%個像素的邊界誤差計算F1-score)[57,58,59]。這些指標都在權重根據類別調整和未調整兩個狀態下進行了評估
模型比較:
1、不同 decoder 變體性能比較,主要是 SegNet 和 FCN 的變體,來說明 SegNet 的內存節省和 encoder 部分特征圖的重要性
2、用了兩個數據集(道路景象分割,室內景象分割),來比較 SegNet 和傳統方法,以及 SegNet 和其余的深度學習方法(不同迭代次數下比較)
討論和展望:
SegNet 雖然在精確度上沒有提升,但是考慮到實際操作時的內存和時間消耗,SegNet 表現很好。未來希望設計效率更高的網絡,實現實時分割。同時也對深度學習分割結構的預測不確定性感興趣[69,70]。
備注:
最大池化為了實現平移不變性,在圖片有微小平移時依然可以魯棒。同時最大值一定程度上反映的是邊界信息
和DeconvNet的區別在於取消了全連接層,大大減少了參數數量。此外它在反池化后用的卷積,DeconvNet用的反卷積。
重要參考文獻:
[2] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, pp. 3431–3440, 2015.
[3] C. Liang-Chieh, G. Papandreou, I. Kokkinos, K. Murphy, and A. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” in ICLR, 2015.
[4] H. Noh, S. Hong, and B. Han, “Learning deconvolution network for semantic segmentation,” in ICCV, pp. 1520–1528, 2015.
[57] G. Csurka, D. Larlus, F. Perronnin, and F. Meylan, “What is a good evaluation measure for semantic segmentation?.,” in BMVC, 2013.
[58] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in https://arxiv.org/pdf/1605.06211v1.pdf, 2016.
[59] D. R. Martin, C. C. Fowlkes, and J. Malik, “Learning to detect natural image boundaries using local brightness, color, and texture cues,” IEEE transactions on pattern analysis and machine intelligence, vol. 26, no. 5,pp. 530–549, 2004.
[69] Y. Gal and Z. Ghahramani, “Dropout as a bayesian approximation: Insights and applications,” in Deep Learning Workshop, ICML, 2015.
[70] A. Kendall, V. Badrinarayanan, and R. Cipolla, “Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding,” arXiv preprint arXiv:1511.02680, 2015.
編輯於 2019-04-21 19:36:13