圖森和CMU的合作工作。
論文鏈接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)
主要提出DUC(dense upsampling convolution)和HDC(hybrid dilated convolution),其中DUC相當於用通道數來彌補卷積/池化等操作導致的尺寸的損失,HDC為了消除在連續使用dilation convolution時容易出現的gridding effect。
1. DUC

* 標准的bilinear interpolation是沒有參數需要學習的,對於像素級的分割任務,會造成部分細節信息丟失。
* DUC模塊,則是將所有特征圖分成$d^2$個子集(d代表圖像的降維比例)。假如原始圖像大小為$H*W$,卷積之后變為$H/d*W/d$,用$h*w$代替,具體為:
* 先將原先的$h*w*c$變成$h*w*(d^2*L)$,L為分割的類別數目
* 將此后的輸出reshape為$H*W*L$,以此引入多個學習的參數,提升對細節的分割效果
2. HDC
連續使用dilation conv時,dilation rate選擇不當,已造成某些像素始終無法參與運算,作者將其描述為gridding現象,如下圖。

為此,作者提出多種不同的dilation rate連續、交替使用的方案,即
* 連續使用dilation conv時,dilation rate設計成鋸齒狀結構,如[1,2,5, 1, 2, 5]
* 疊加的卷積層不要有大於1的公約數
* 滿足公式

其中,$M_n = r_n$,該公式目標為使得$M_2 \leq K$
3. 實驗
該部分,作者以DeepLab_V2為baseline model,並對比多種tricks的效果,如bigger patch size(data augmentation),larger dilation rate等,驗證了larger dilation rate對性能的提升。
* 在Deeplab_v3中對dilation rate的使用提出一個思考,當dilation rate過大時,由於圖像的邊緣效應導致long range information並沒有被學習到。
* 個人思考:在網絡的底層,不適合使用較大的dilation rate(貌似很多都是用標准卷積),因為底層網絡層更多包含底維信息,如果引入大的dilation rate,會導致部分細節的底層信息被忽略掉。
---
參考資料
1. [https://www.zhihu.com/question/54149221](https://www.zhihu.com/question/54149221)
2. [Rethinking Atrous Convolution for Semantic Image Segmentation
](https://arxiv.org/abs/1706.05587)
------------恢復內容開始------------
圖森和CMU的合作工作。
論文鏈接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)
主要提出DUC(dense upsampling convolution)和HDC(hybrid dilated convolution),其中DUC相當於用通道數來彌補卷積/池化等操作導致的尺寸的損失,HDC為了消除在連續使用dilation convolution時容易出現的gridding effect。
1. DUC

* 標准的bilinear interpolation是沒有參數需要學習的,對於像素級的分割任務,會造成部分細節信息丟失。
* DUC模塊,則是將所有特征圖分成$d^2$個子集(d代表圖像的降維比例)。假如原始圖像大小為\( H*W \),卷積之后變為\( H/d*W/d \),用\( h*w \)代替,具體為:
* 先將原先的\( h*w*c \)變成\( h*w*(d^2*L) \),L為分割的類別數目
* 將此后的輸出reshape為\( H*W*L \),以此引入多個學習的參數,提升對細節的分割效果
2. HDC
連續使用dilation conv時,dilation rate選擇不當,已造成某些像素始終無法參與運算,作者將其描述為gridding現象,如下圖。

為此,作者提出多種不同的dilation rate連續、交替使用的方案,即
* 連續使用dilation conv時,dilation rate設計成鋸齒狀結構,如[1,2,5, 1, 2, 5]
* 疊加的卷積層不要有大於1的公約數
* 滿足公式

其中,\( M_n = r_n \),該公式目標為使得\( M_2 \leq K \)
3. 實驗
該部分,作者以DeepLab_V2為baseline model,並對比多種tricks的效果,如bigger patch size(data augmentation),larger dilation rate等,驗證了larger dilation rate對性能的提升。
* 在Deeplab_v3中對dilation rate的使用提出一個思考,當dilation rate過大時,由於圖像的邊緣效應導致long range information並沒有被學習到。
* 個人思考:在網絡的底層,不適合使用較大的dilation rate(貌似很多都是用標准卷積),因為底層網絡層更多包含底維信息,如果引入大的dilation rate,會導致部分細節的底層信息被忽略掉。
---
參考資料
1. [https://www.zhihu.com/question/54149221](https://www.zhihu.com/question/54149221)
2. [Rethinking Atrous Convolution for Semantic Image Segmentation
](https://arxiv.org/abs/1706.05587)
------------恢復內容結束------------