理解圖像分割中的卷積(Understand Convolution for Semantic Segmentation)


 

 

 

 

以最佳的101 layer的ResNet-DUC為基礎,添加HDC,實驗探究了幾種變體:

  • 無擴張卷積(no dilation):對於所有包含擴張卷積,設置r=1r=1
  • 擴張卷積(dilation Conv ):對於所有包含擴張卷積,將2個block和為一組,設置第一個block的r=2r=2,第二個block的r=1r=1
  • Dilation-RF:對於res4bres4b包含了23個blocks,使用的r=2r=2,設置3個block一組,r=1,2,3r=1,2,3.對於最后兩個block,設置r=2r=2;對於res5bres5b,包含3個block,使用r=4r=4,設置為r=3,4,5r=3,4,5.
  • Dilation-Bigger:對於res4bres4b模塊,設置4個block為一組,設置r=1,2,5,9r=1,2,5,9.最后3個block設置為1,2,51,2,5;對於res5bres5b模塊,設置r=5,9,17r=5,9,17

mark

可以看到增加接收野大小會獲得較高的精度。如下圖所示:

mark

ResNet-DUC-HDC在較大的目標物上表現較好。下圖是局部放大:

mark

可以看到HDC有效的消除”gridding”產生的影響。

Deeper Networks: 同樣嘗試了將ResNet-101切換為ResNet-152,使用ResNet152先跑了10個epoch學習了BN層參數,再固定BN層,跑了20個epochs.結果如下:

mark

ResNet152為基礎層的有1%的提升。

Test Set Results: 論文將ResNet101開始的7×77×7卷積拆分為3個3×33×3的卷積,再不帶CRF的情況下達到了80.1%mIoU.與其他先進模型相比如下:

mark

模型同時在coarse labels跑了一圈,與同樣以deliated convolution為主的DeepLabv2相比,提升了9.7%.

KITTI Road Segmentaiton

KITTI有289的訓練圖片和290個測試圖片。示例如下:

mark

因為數據集有限,為了避免過擬合。論文以100的步長在數據集中裁剪320×320320×320的patch. 使用預訓練模型,結果如下:

mark

結果達到了state-of-the-art水平.

PASCAL VOC2012 dataset

先用VOC2012訓練集和MS-COCO數據集對ResNet-DUC做預訓練。再使用VOC2012做fine-tune。使用的圖片大小為512×512512×512。達到了state-of-the-art水平:

mark

可視化結果如下:
mark


Conclusion

論文提出了簡單有效的卷積操作改進語義分割系統。使用DUC恢復上采樣丟失的信息,使用HDC在解決”gridding”的影響的同時擴大感受野。實驗證明我們的框架對各種語義分割任務的有效性。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM