論文鏈接:https://blog.csdn.net/qq_34889607/article/details/8053642
摘要
該文重新窺探空洞卷積的神秘,在語義分割領域,空洞卷積是調整卷積核感受野和DCNN feature map分辨率的有力工具。該文應用不同sample rate的空洞卷積以級聯或者平行的方式來處理分割任務中的多尺寸問題。另外,增強了ASPP使其在圖像級編碼global context來生成卷積特征。該文與DeepLabv1,DeepLabv2不同,將作為后處理的CRF移除,但取得的效果更好。
介紹
針對分割目標不同的尺寸,該文主要從四個方面入手。(1)將DCNN應用於ASPP,不同尺寸的圖片在對應網絡層中特征更加明顯。(2)encoder-decoder結構,利用encoder中的多尺度特征,在decoder中恢復為原圖尺寸。(3)添加一個模塊級聯在DCNN的頂部,用於捕捉遠距離像素之間的信息(有使用Dense CRF或者級聯基層卷積層)。(4)ASPP具有不同的rate和感受野,可以捕獲不同尺寸目標物的信息。
該文主要分析空洞卷積的應用方式,級聯或者平行。並分析了當應用一個感受野較大的3x3的空洞卷積時,由於圖像邊界處無法得到遠距離的信息,進而退化為1x1的卷積,該文還將圖像級的特征與ASPP結合。針對稀少的有標記物體,作者提出了一種簡單但有效的引導方法。
相關工作
全局特征和上下文信息對語義分割進行正確的像素級分類十分重要。該文分析了四種類型的全卷積網絡,如下圖
Image Pyramid: 應用於多尺寸輸入,來自小尺寸的特征響應可以編碼遠距離的上下文信息。較大尺寸的輸入圖片可以包含更多的物體細節信息。將不同尺寸的圖片輸入DCNN,並融合所有尺寸的feature maps。這種結構的缺點是對於較深的DCNN由於GPU的限制並不能對輸入圖片進行很好的scale操作。
Encoder-decoder:主要包含兩部分,a)編碼層feature map的空間維度降低很多,更長距離的信息在更深的編碼層中更容易被捕捉到。b)解碼層的物體細節和空間維度逐漸恢復。應用反卷積將低分辨率的feature map進行上采樣。SegNet重新利用編碼層中max-pooling 的indices和添加的卷積層來細化得到的特征。UNet是將對應層的特征信息進行拼接,並重新構造了網絡。
Context module: 此模塊包含額外的級聯的模型,用於編碼長距離下的語義信息。比如DenseCRF接到DCNN的后面,在DCNN最后一層增加幾層卷積,使CRF和DCNN可以聯合訓練。目前,有一種普適性與稀疏性的高卷積,結合高斯條件隨機場來進行分割。
Spatial pyramid pooling: 該文將ResNet的最后幾個模塊進行復制,並將他們級聯,並重新考慮ASPP,這里訓練要注意訓練時要加上batch normalization。
方法
該文主要討論空洞卷積的兩種應用方式-級聯或者平行。該文將空洞卷積進行級聯,復制了幾個ResNet最后的block,使網絡加深進而可以獲得更長距離的語義信息。但網絡層數加深使物體的細節信息就會有損失,所以這里引入了空洞卷積。(output_stride:圖像從原始分辨率到最終分辨率降低的倍數。)增加了multi_grid,通過block4到block7之間的不同的sample rate,定義了Multi_Grid={r1,r2,r3},最終,rate的大小值等於Multi_Grid與相應rate值的乘積。
對於ASPP,該文在ASPP中引入了BN層加速訓練。但隨着sample rate 的增大,filter 的權重有效值越來越小。當rate的大小變為feature map大小時,3x3的filter無法捕捉到全局信息,進而退化為1x1的(相當於1x1的效果),這是因為filter只有中心的權重是有效的。為此,采用圖片級的特征,在模型的最后一層增加一層平均池化層,然后將得到的feature map送到,1x1x256的卷積層中,后接BN層,並通過雙線性插值上采樣到理想分辨率。最終,本文的方法包含一個1x1的卷積和三個3x3的卷積(rates=(6,12,18)),最后所有分支得到的feature map進行拼接,然后送到1x1的卷積(自帶BN)中,最后還有一個1x1的卷積來產生最后的logits,結構圖如下。
實驗
該文在實驗中用到了幾個策略:(1)學習率的更新策略和deeplabV2相同,poly,(2)進行了裁剪(目的是使空洞卷積的rate盡可能的有效,crop的大小裁剪為513)(3)Batch Normalization(4)Upsampling logits 保證groundtruth的完整性十分重要,將輸出上采樣8倍與完整的ground Truth進行比較。 (5)數據增強。
參考
[1] M. Abadi, A. Agarwal, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv:1603.04467, 2016.
[2] A. Adams, J. Baek, and M. A. Davis. Fast high-dimensional filtering using the permutohedral lattice. In Eurographics, 2010.