Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers


Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

2021-01-02  00:19:30

 

Paperhttps://arxiv.org/abs/2012.15840

Codehttps://github.com/fudan-zvg/SETR 

 

  本文首次將 Transformer 模型用於替換語義分割的骨干模型,即連基礎的 CNN 的模型都不用。純粹的 transformer 模型做 CV 任務,ViT 是第一個工作:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. arXiv preprint arXiv:2010.11929, 2020. [Paper] [Code]。在此之前,ECCV-2020 也有一個工作:Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation 是純粹基於 self-attention 來做的。但是這兩個工作的主要區別在於:Axial-DeepLab 仍然是采用 encoder-decoder 的框架來做語義分割,即:首先降低分辨率,再提升分辨率的過程。那么,本文就思考,能夠利用 transformer 模型,不進行類似降低分辨率的操作呢?

 

  如下圖所示,本文借鑒了 ViT 模型,對圖像划分 patch 塊,然后利用 fc 進行映射以及位置編碼。得到對應的表達后,利用 transformer 模型,進行處理。這一塊就是作者用到的 Encoder 模型。該過程中一直沒有整副圖的概念,均是在處理 local patch,所以沒有 feature maps 分辨率降低的概念。得到這些 patch 塊的表達后,進行 reshape,得到整個圖的 feature map,然后利用 decoder模型進行上采樣,得到預測結果。

其中,作者設計了多種 decoder 模型,來進行實驗,如下所示:

 

1) Naive upsampling (Naive)
  兩層 1 × 1 conv + sync batch norm (w/ ReLU) + 1 × 1 conv.
 
2) Progressive UPsampling (PUP)
 
 
3) Multi-Level feature Aggregation (MLA): 

 

2. Experiment

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM