Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
2021-01-02 00:19:30
Paper: https://arxiv.org/abs/2012.15840
Code: https://github.com/fudan-zvg/SETR
本文首次將 Transformer 模型用於替換語義分割的骨干模型,即連基礎的 CNN 的模型都不用。純粹的 transformer 模型做 CV 任務,ViT 是第一個工作:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. arXiv preprint arXiv:2010.11929, 2020. [Paper] [Code]。在此之前,ECCV-2020 也有一個工作:Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation 是純粹基於 self-attention 來做的。但是這兩個工作的主要區別在於:Axial-DeepLab 仍然是采用 encoder-decoder 的框架來做語義分割,即:首先降低分辨率,再提升分辨率的過程。那么,本文就思考,能夠利用 transformer 模型,不進行類似降低分辨率的操作呢?
如下圖所示,本文借鑒了 ViT 模型,對圖像划分 patch 塊,然后利用 fc 進行映射以及位置編碼。得到對應的表達后,利用 transformer 模型,進行處理。這一塊就是作者用到的 Encoder 模型。該過程中一直沒有整副圖的概念,均是在處理 local patch,所以沒有 feature maps 分辨率降低的概念。得到這些 patch 塊的表達后,進行 reshape,得到整個圖的 feature map,然后利用 decoder模型進行上采樣,得到預測結果。
其中,作者設計了多種 decoder 模型,來進行實驗,如下所示:


2. Experiment: