以最佳的101 layer的ResNet-DUC為基礎,添加HDC,實驗探究了幾種變體:
- 無擴張卷積(no dilation):對於所有包含擴張卷積,設置r=1r=1
- 擴張卷積(dilation Conv ):對於所有包含擴張卷積,將2個block和為一組,設置第一個block的r=2r=2,第二個block的r=1r=1
- Dilation-RF:對於res4bres4b包含了23個blocks,使用的r=2r=2,設置3個block一組,r=1,2,3r=1,2,3.對於最后兩個block,設置r=2r=2;對於res5bres5b,包含3個block,使用r=4r=4,設置為r=3,4,5r=3,4,5.
- Dilation-Bigger:對於res4bres4b模塊,設置4個block為一組,設置r=1,2,5,9r=1,2,5,9.最后3個block設置為1,2,51,2,5;對於res5bres5b模塊,設置r=5,9,17r=5,9,17
可以看到增加接收野大小會獲得較高的精度。如下圖所示:
ResNet-DUC-HDC在較大的目標物上表現較好。下圖是局部放大:
可以看到HDC有效的消除”gridding”產生的影響。
Deeper Networks: 同樣嘗試了將ResNet-101切換為ResNet-152,使用ResNet152先跑了10個epoch學習了BN層參數,再固定BN層,跑了20個epochs.結果如下:
ResNet152為基礎層的有1%的提升。
Test Set Results: 論文將ResNet101開始的7×77×7卷積拆分為3個3×33×3的卷積,再不帶CRF的情況下達到了80.1%mIoU.與其他先進模型相比如下:
模型同時在coarse labels跑了一圈,與同樣以deliated convolution為主的DeepLabv2相比,提升了9.7%.
KITTI Road Segmentaiton
KITTI有289的訓練圖片和290個測試圖片。示例如下:
因為數據集有限,為了避免過擬合。論文以100的步長在數據集中裁剪320×320320×320的patch. 使用預訓練模型,結果如下:
結果達到了state-of-the-art水平.
PASCAL VOC2012 dataset
先用VOC2012訓練集和MS-COCO數據集對ResNet-DUC做預訓練。再使用VOC2012做fine-tune。使用的圖片大小為512×512512×512。達到了state-of-the-art水平:
Conclusion
論文提出了簡單有效的卷積操作改進語義分割系統。使用DUC恢復上采樣丟失的信息,使用HDC在解決”gridding”的影響的同時擴大感受野。實驗證明我們的框架對各種語義分割任務的有效性。