論文閱讀筆記二十一:MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS(ICRL2016)


論文源址:https://arxiv.org/abs/1511.07122

tensorflow Github:https://github.com/ndrplz/dilation-tensorflow

摘要

       該文提出了空洞卷積模型,在不降低分辨率的基礎上聚合圖像中不同尺寸的上下文信息,同時,空洞卷積擴大感受野的范圍。

介紹

       語義分割具有一定的挑戰性,因為要進行像素級的分類,同時,要考慮不同尺寸大小的上下文信息的推理。通過卷積外加反向傳播的學習算法,使分類的准確率得到大幅度的提升。由原始的分類到像素級的分類,本文提出了兩個問題:(1)重新構建的網絡的哪一部分是有必要的,同時,哪個操作在進行密集分類時會降低分割結果的准確率。(2)設計一個專門用於進行密集分類的模型結構會提高分割的效果嗎?

      分類網絡通過連續的卷積池化操作來融合不同尺寸的上下文信息,此過程中,分辨率在不斷的減少,知道得到一個最總的預測分類結果。與之相反,分割任務要求在完整的分辨率上進行多尺寸的預測。針對此問題有兩種解決方式:(1)通過反卷積操作恢復丟失的分辨率信息。這就引出一個疑問,中間下采樣的操作是否是真的有必要的。(2)提供多尺寸的輸入圖片,並將這些圖片的預測結果進行組合。同樣,這里存在一個問題,對不同尺寸輸入的圖片,是否需要對他們的結果單獨進行分析。

      該文提出的空洞卷積模型,並未減少分辨率同時,不需要對不同尺寸輸入圖片對輸出結果的影響進行分析。該結構主要用於分割任務,同時,值得注意的是空洞卷積的網絡中並未有池化或者下采樣的操作過程。通過空洞卷積即可獲得較大的感受野。

空洞卷積 

      

 

         該文重點介紹空洞卷積的影響,而不是空洞卷積的構建,利用空洞卷積進行多尺寸的信息融合。空洞卷積核感受野的大小成指數增長,如下圖。

         卷積核大小kxk,dilation factor:n-推出感受野大小為:(k+1)x n - 1

多尺寸語義信息融合

         語義模型通過融合多尺寸的上下文信息,來提高密集預測結構的效果。有C通道的輸入feature maps輸入模型后,輸出C通道的feature maps。

該文提出的一種基礎模型,包含7層網絡,其中使用了不同dilation factor的3x3的卷積。dilations為【1,1,2,4,8,16】,每層上都有卷積操作,前兩層,每層卷積后都接着一個像素級的截斷處理,max(,0)。最后一層為1x1xc的卷積,並產生輸出,,結構如下表,輸入為64x64的圖片。

         該文該開始用標准的初始化流程訓練網絡,結果並不理想。   卷積網絡一般使用隨機采樣分布進行初始化操作。但這種方式對空洞卷積效果甚微,該文轉而用如下Identity初始化方式。

         這種初始化方式,會讓前一層的信息直接流入下一層中,直覺上感到不利於反向傳播信息的傳遞,但實驗證明,這種擔心是多余的。對於不同深度的初始化按如下方式進行。

前端

         該網絡的輸入為三通道的彩色圖像,輸出為21通道的特征圖,基於VGG16進行改進,將其中最后兩層池化層與全連接層。對於移除的池化層后接的卷積層的dilation factor擴大2倍。因此,最后一層的卷積層的的dilated factor擴大為4。通過空洞卷積,可以利用原始分類網絡的參數初始化,同時產生更高分辨率的輸出。該模型,在Pascal VOC2012數據集上進行訓練,基於SGD優化方法,mini-batch 大小為14,學習率為1e-3,動量大小為0.9,迭代60000次。

實驗

reference

         Badrinarayanan, Vijay, Handa, Ankur, and Cipolla, Roberto. SegNet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling. arXiv:1505.07293, 2015.

          Brostow,GabrielJ.,Fauqueur,Julien,andCipolla,Roberto. Semanticobjectclassesinvideo: Ahigh-definition ground truth database. Pattern Recognition Letters, 30(2), 2009.

          Chen, Liang-Chieh, Papandreou, George, Kokkinos, Iasonas, Murphy, Kevin, and Yuille, Alan L. Semantic image segmentation with deep convolutional nets and fully connected CRFs. In ICLR, 2015a.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM