論文筆記-Understanding Convolution for Semantic Segmentation


圖森和CMU的合作工作。

論文鏈接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)

主要提出DUC(dense upsampling convolution)和HDC(hybrid dilated convolution),其中DUC相當於用通道數來彌補卷積/池化等操作導致的尺寸的損失,HDC為了消除在連續使用dilation convolution時容易出現的gridding effect。

 

1. DUC

    
    * 標准的bilinear interpolation是沒有參數需要學習的,對於像素級的分割任務,會造成部分細節信息丟失。
    * DUC模塊,則是將所有特征圖分成$d^2$個子集(d代表圖像的降維比例)。假如原始圖像大小為$H*W$,卷積之后變為$H/d*W/d$,用$h*w$代替,具體為:
        * 先將原先的$h*w*c$變成$h*w*(d^2*L)$,L為分割的類別數目
        * 將此后的輸出reshape為$H*W*L$,以此引入多個學習的參數,提升對細節的分割效果
 
2. HDC
連續使用dilation conv時,dilation rate選擇不當,已造成某些像素始終無法參與運算,作者將其描述為gridding現象,如下圖。
    
為此,作者提出多種不同的dilation rate連續、交替使用的方案,即
    * 連續使用dilation conv時,dilation rate設計成鋸齒狀結構,如[1,2,5, 1, 2, 5]
    * 疊加的卷積層不要有大於1的公約數
    * 滿足公式    
        
        其中,$M_n = r_n$,該公式目標為使得$M_2 \leq K$
 
3. 實驗
該部分,作者以DeepLab_V2為baseline model,並對比多種tricks的效果,如bigger patch size(data augmentation),larger dilation rate等,驗證了larger dilation rate對性能的提升。
    * 在Deeplab_v3中對dilation rate的使用提出一個思考,當dilation rate過大時,由於圖像的邊緣效應導致long range information並沒有被學習到。
    * 個人思考:在網絡的底層,不適合使用較大的dilation rate(貌似很多都是用標准卷積),因為底層網絡層更多包含底維信息,如果引入大的dilation rate,會導致部分細節的底層信息被忽略掉。
 
---
參考資料
1. [https://www.zhihu.com/question/54149221](https://www.zhihu.com/question/54149221)
2. [Rethinking Atrous Convolution for Semantic Image Segmentation ](https://arxiv.org/abs/1706.05587)
 

 

------------恢復內容開始------------

圖森和CMU的合作工作。

論文鏈接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)

主要提出DUC(dense upsampling convolution)和HDC(hybrid dilated convolution),其中DUC相當於用通道數來彌補卷積/池化等操作導致的尺寸的損失,HDC為了消除在連續使用dilation convolution時容易出現的gridding effect。

 

1. DUC

    
    * 標准的bilinear interpolation是沒有參數需要學習的,對於像素級的分割任務,會造成部分細節信息丟失。
    * DUC模塊,則是將所有特征圖分成$d^2$個子集(d代表圖像的降維比例)。假如原始圖像大小為\( H*W \),卷積之后變為\( H/d*W/d \),用\( h*w \)代替,具體為:
        * 先將原先的\( h*w*c \)變成\( h*w*(d^2*L) \),L為分割的類別數目
        * 將此后的輸出reshape為\( H*W*L \),以此引入多個學習的參數,提升對細節的分割效果
 
2. HDC
連續使用dilation conv時,dilation rate選擇不當,已造成某些像素始終無法參與運算,作者將其描述為gridding現象,如下圖。
    
為此,作者提出多種不同的dilation rate連續、交替使用的方案,即
    * 連續使用dilation conv時,dilation rate設計成鋸齒狀結構,如[1,2,5, 1, 2, 5]
    * 疊加的卷積層不要有大於1的公約數
    * 滿足公式    
        
        其中,\( M_n = r_n \),該公式目標為使得\( M_2 \leq K \)
 
3. 實驗
該部分,作者以DeepLab_V2為baseline model,並對比多種tricks的效果,如bigger patch size(data augmentation),larger dilation rate等,驗證了larger dilation rate對性能的提升。
    * 在Deeplab_v3中對dilation rate的使用提出一個思考,當dilation rate過大時,由於圖像的邊緣效應導致long range information並沒有被學習到。
    * 個人思考:在網絡的底層,不適合使用較大的dilation rate(貌似很多都是用標准卷積),因為底層網絡層更多包含底維信息,如果引入大的dilation rate,會導致部分細節的底層信息被忽略掉。
 
---
參考資料
1. [https://www.zhihu.com/question/54149221](https://www.zhihu.com/question/54149221)
2. [Rethinking Atrous Convolution for Semantic Image Segmentation ](https://arxiv.org/abs/1706.05587)
 

 

------------恢復內容結束------------


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM