論文筆記-Understanding Convolution for Semantic Segmentation

本文轉載自查看原文 2018-10-12 21:45 794 Segmentation/ 論文筆記/ segmentation

圖森和CMU的合作工作。

論文鏈接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)

主要提出DUC（dense upsampling convolution）和HDC（hybrid dilated convolution），其中DUC相當於用通道數來彌補卷積/池化等操作導致的尺寸的損失，HDC為了消除在連續使用dilation convolution時容易出現的gridding effect。

1. DUC

* 標准的bilinear interpolation是沒有參數需要學習的，對於像素級的分割任務，會造成部分細節信息丟失。

* DUC模塊，則是將所有特征圖分成$d^2$個子集（d代表圖像的降維比例）。假如原始圖像大小為$H*W$，卷積之后變為$H/d*W/d$，用$h*w$代替，具體為：

* 先將原先的$h*w*c$變成$h*w*(d^2*L)$，L為分割的類別數目

* 將此后的輸出reshape為$H*W*L$，以此引入多個學習的參數，提升對細節的分割效果

2. HDC

連續使用dilation conv時，dilation rate選擇不當，已造成某些像素始終無法參與運算，作者將其描述為gridding現象，如下圖。

為此，作者提出多種不同的dilation rate連續、交替使用的方案，即

* 連續使用dilation conv時，dilation rate設計成鋸齒狀結構，如[1,2,5, 1, 2, 5]

* 疊加的卷積層不要有大於1的公約數

* 滿足公式

其中，$M_n = r_n$，該公式目標為使得$M_2 \leq K$

3. 實驗

該部分，作者以DeepLab_V2為baseline model，並對比多種tricks的效果，如bigger patch size(data augmentation)，larger dilation rate等，驗證了larger dilation rate對性能的提升。

* 在Deeplab_v3中對dilation rate的使用提出一個思考，當dilation rate過大時，由於圖像的邊緣效應導致long range information並沒有被學習到。

* 個人思考：在網絡的底層，不適合使用較大的dilation rate（貌似很多都是用標准卷積），因為底層網絡層更多包含底維信息，如果引入大的dilation rate，會導致部分細節的底層信息被忽略掉。

---

參考資料

1. [https://www.zhihu.com/question/54149221](https://www.zhihu.com/question/54149221)

2. [Rethinking Atrous Convolution for Semantic Image Segmentation ](https://arxiv.org/abs/1706.05587)

------------恢復內容開始------------

圖森和CMU的合作工作。

論文鏈接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)

1. DUC

* 標准的bilinear interpolation是沒有參數需要學習的，對於像素級的分割任務，會造成部分細節信息丟失。

* DUC模塊，則是將所有特征圖分成$d^2$個子集（d代表圖像的降維比例）。假如原始圖像大小為$ H*W $，卷積之后變為$ H/d*W/d $，用$ h*w $代替，具體為：

* 先將原先的$ h*w*c $變成$ h*w*(d^2*L) $，L為分割的類別數目

* 將此后的輸出reshape為$ H*W*L $，以此引入多個學習的參數，提升對細節的分割效果