論文閱讀筆記十一：Rethinking Atrous Convolution for Semantic Image Segmentation（DeepLabv3)(CVPR2017)

本文轉載自查看原文 2018-10-27 21:20 713 paper筆記

論文鏈接：https://blog.csdn.net/qq_34889607/article/details/8053642

摘要

該文重新窺探空洞卷積的神秘，在語義分割領域，空洞卷積是調整卷積核感受野和DCNN feature map分辨率的有力工具。該文應用不同sample rate的空洞卷積以級聯或者平行的方式來處理分割任務中的多尺寸問題。另外，增強了ASPP使其在圖像級編碼global context來生成卷積特征。該文與DeepLabv1，DeepLabv2不同，將作為后處理的CRF移除，但取得的效果更好。

介紹

針對分割目標不同的尺寸，該文主要從四個方面入手。（1）將DCNN應用於ASPP，不同尺寸的圖片在對應網絡層中特征更加明顯。（2）encoder-decoder結構，利用encoder中的多尺度特征，在decoder中恢復為原圖尺寸。（3）添加一個模塊級聯在DCNN的頂部，用於捕捉遠距離像素之間的信息（有使用Dense CRF或者級聯基層卷積層）。（4）ASPP具有不同的rate和感受野，可以捕獲不同尺寸目標物的信息。

該文主要分析空洞卷積的應用方式，級聯或者平行。並分析了當應用一個感受野較大的3x3的空洞卷積時，由於圖像邊界處無法得到遠距離的信息，進而退化為1x1的卷積，該文還將圖像級的特征與ASPP結合。針對稀少的有標記物體，作者提出了一種簡單但有效的引導方法。

相關工作

全局特征和上下文信息對語義分割進行正確的像素級分類十分重要。該文分析了四種類型的全卷積網絡，如下圖

Image Pyramid: 應用於多尺寸輸入，來自小尺寸的特征響應可以編碼遠距離的上下文信息。較大尺寸的輸入圖片可以包含更多的物體細節信息。將不同尺寸的圖片輸入DCNN，並融合所有尺寸的feature maps。這種結構的缺點是對於較深的DCNN由於GPU的限制並不能對輸入圖片進行很好的scale操作。

Encoder-decoder:主要包含兩部分，a）編碼層feature map的空間維度降低很多，更長距離的信息在更深的編碼層中更容易被捕捉到。b）解碼層的物體細節和空間維度逐漸恢復。應用反卷積將低分辨率的feature map進行上采樣。SegNet重新利用編碼層中max-pooling 的indices和添加的卷積層來細化得到的特征。UNet是將對應層的特征信息進行拼接，並重新構造了網絡。

Context module: 此模塊包含額外的級聯的模型，用於編碼長距離下的語義信息。比如DenseCRF接到DCNN的后面，在DCNN最后一層增加幾層卷積，使CRF和DCNN可以聯合訓練。目前，有一種普適性與稀疏性的高卷積，結合高斯條件隨機場來進行分割。

Spatial pyramid pooling: 該文將ResNet的最后幾個模塊進行復制，並將他們級聯，並重新考慮ASPP，這里訓練要注意訓練時要加上batch normalization。

方法

該文主要討論空洞卷積的兩種應用方式-級聯或者平行。該文將空洞卷積進行級聯，復制了幾個ResNet最后的block，使網絡加深進而可以獲得更長距離的語義信息。但網絡層數加深使物體的細節信息就會有損失，所以這里引入了空洞卷積。（output_stride:圖像從原始分辨率到最終分辨率降低的倍數。）增加了multi_grid,通過block4到block7之間的不同的sample rate，定義了Multi_Grid={r1,r2,r3}，最終，rate的大小值等於Multi_Grid與相應rate值的乘積。

對於ASPP，該文在ASPP中引入了BN層加速訓練。但隨着sample rate 的增大，filter 的權重有效值越來越小。當rate的大小變為feature map大小時，3x3的filter無法捕捉到全局信息，進而退化為1x1的（相當於1x1的效果），這是因為filter只有中心的權重是有效的。為此，采用圖片級的特征，在模型的最后一層增加一層平均池化層，然后將得到的feature map送到，1x1x256的卷積層中，后接BN層，並通過雙線性插值上采樣到理想分辨率。最終，本文的方法包含一個1x1的卷積和三個3x3的卷積（rates=(6,12,18)）,最后所有分支得到的feature map進行拼接，然后送到1x1的卷積（自帶BN）中，最后還有一個1x1的卷積來產生最后的logits，結構圖如下。

實驗

該文在實驗中用到了幾個策略：（1）學習率的更新策略和deeplabV2相同，poly，（2）進行了裁剪（目的是使空洞卷積的rate盡可能的有效，crop的大小裁剪為513）（3）Batch Normalization（4）Upsampling logits 保證groundtruth的完整性十分重要,將輸出上采樣8倍與完整的ground Truth進行比較。 (5)數據增強。

參考

[1] M. Abadi, A. Agarwal, et al. Tensorﬂow: Large-scale machine learning on heterogeneous distributed systems. arXiv:1603.04467, 2016.

[2] A. Adams, J. Baek, and M. A. Davis. Fast high-dimensional ﬁltering using the permutohedral lattice. In Eurographics, 2010.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Semantic Segmentation -- (DeepLabv3)Rethinking Atrous Convolution for Semantic Image Segmentation論文解論文閱讀筆記十七：ReﬁneNet: Multi-Path Reﬁnement Networks for High-Resolution Semantic Segmentation（CVPR2017）論文閱讀筆記三十九：Accurate Single Stage Detector Using Recurrent Rolling Convolution（RRC CVPR2017）論文閱讀筆記三十六：Mask R-CNN（CVPR2017） Structure Boundary Preserving Segmentation for Medical Image with Ambiguous Boundary(CVPR 2020)論文閱讀筆記論文閱讀筆記三：R2CNN：Rotational Region CNN for Orientation Robust Scene Text Detection(CVPR2017) 論文閱讀筆記十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016) 論文閱讀筆記八：SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (IEEE2017) 論文閱讀筆記（三十九）【CVPR2017】：Spindle Net Person Re-identiﬁcation with Human Body Region Guided Feature Decomposition and Fusion 論文筆記（6）：Weakly-and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation