論文閱讀筆記十二:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation(DeepLabv3+)(CVPR2018)


 

論文鏈接:https://arxiv.org/abs/1802.02611

tensorflow 官方實現: https: //github.com/tensorflow/models/tree/master/research/deeplab

實驗代碼:https://github.com/fourmi1995/IronSegExperiment-Deeplabv3_PLUS.git

摘要

      分割任務中常見的結構有空間池化模型與編碼-解碼結構,前者主要通過不同的卷積和不同rate的池化操作和感受野對輸入的feature map編碼多尺寸信息。編碼-解碼結構可以通過逐漸恢復空間信息獲得物體的邊緣信息。該文的改進:(1)結合了上述兩種結構的優點。DeepLabv3+ 在DeepLabv3的基礎上增加了一個decoder 模型來是增強物體邊緣的分割。(2)引用了Xception中的深度可分卷積,應用在ASPP與decoder提高了網絡的訓練速度。

介紹

      通過引入空洞卷積可以生成更加密集的feature map,然而由於GPU內存的限制,提取輸入圖片分辨率小4倍甚至8倍的feature map在計算上是不被允許的。而decoder層由於沒有卷積核沒有被擴張,因此計算速度上可以提高很多。本文的貢獻如下。

       (1)讓DeepLabv3作為encoder,用一個簡單有效的decoder模型,形成encoder-decoder結構。

       (2)可以通過空洞卷積隨意控制編碼層feature map的分辨率。

       (3)將Xception的深層可分卷積應用在ASPP與decoder模型中,使網絡更快速。

       (4)在PASCAL VOC2012與Cityscapes上得到stae-of-art的效果。

 

相關工作

      Encoder-Decoder:(1)Encoder模型用於減少feature map的分辨率並捕捉更抽象的分割信息。(2)Decoder模型用於恢復空間信息。

      深度可分卷積(group 卷積):該卷積的一個優勢是可以在保證性能相近的條件下盡可能的減少計算量和大量的可訓練參數。

  (參考博客:https://medium.com/@chih.sheng.huang821/%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92-mobilenet-depthwise-separable-convolution-f1ed016b3467)

方法

    深度可分卷積,將標准的卷積拆為深度卷積,后接一個pointwise卷積(1x1卷積),極大的減少了計算量。深度卷積的功能是對每一個通道進行空間卷積,而pointwise卷積的功能是將深度卷積的輸出進行融合。

 

    該文使用DeepLabv3中logits前最后一層的feature map作為encoder的輸出。通常得到的out_stride為16,基於雙線性插值上采樣16倍作為decoder層比較常用,但有時可能得不到理想的效果(邊界信息仍不准確)。該文提出如下模型。(1)首先通過雙線性插值恢復4倍大小的分辨率。(2)然后與對應的低層次的feature map進行拼接,低層次的feature map首先用1x1的卷積處理降低通道數。(3)后接一個大小為3x3的卷積來增強feature maps(4)在通過一個插值來進一步恢復4倍分辨率至原圖大小。

 

   該文對Xception模型的改進,(1)加深了Xception(2)用深度可分卷積替換所有max pooling 減少了計算量,進而可以使用空洞卷積來提取feature(另一種方式是直接在max pooling 中應用空洞卷積)(3)在每個3x3的深度可分卷積后后接,BN層和ReLU。

 

 實驗

     該文使用了預訓練的ResNet-101和改進后的Xception通過空洞卷積來提取密集的特征。

     learning rate policy: "poly" , learning rate: 0.007, crop size: 513x513 , output_stride = 16,random scale data augmentation

 

 

 

 

 

參考

          1. Everingham, M., Eslami, S.M.A., Gool, L.V., Williams, C.K.I., Winn, J., Zisserman, A.: The pascal visual object classes challenge a retrospective. IJCV (2014)

          2. Mottaghi, R., Chen, X., Liu, X., Cho, N.G., Lee, S.W., Fidler, S., Urtasun, R., Yuille, A.: The role of context for object detection and semantic segmentation in the wild. In: CVPR. (2014)

          3. Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., Schiele, B.: The cityscapes dataset for semantic urban scene understanding. In: CVPR. (2016) 

 個人實驗結果

                    

 

 

 

 

 

 

    


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM