Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

本文轉載自查看原文 2021-01-02 00:21 722 Transformer

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

2021-01-02 00:19:30

Paper: https://arxiv.org/abs/2012.15840

Code: https://github.com/fudan-zvg/SETR

　　本文首次將 Transformer 模型用於替換語義分割的骨干模型，即連基礎的 CNN 的模型都不用。純粹的 transformer 模型做 CV 任務，ViT 是第一個工作：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. arXiv preprint arXiv:2010.11929, 2020. [Paper] [Code]。在此之前，ECCV-2020 也有一個工作：Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation 是純粹基於 self-attention 來做的。但是這兩個工作的主要區別在於：Axial-DeepLab 仍然是采用 encoder-decoder 的框架來做語義分割，即：首先降低分辨率，再提升分辨率的過程。那么，本文就思考，能夠利用 transformer 模型，不進行類似降低分辨率的操作呢？

　　如下圖所示，本文借鑒了 ViT 模型，對圖像划分 patch 塊，然后利用 fc 進行映射以及位置編碼。得到對應的表達后，利用 transformer 模型，進行處理。這一塊就是作者用到的 Encoder 模型。該過程中一直沒有整副圖的概念，均是在處理 local patch，所以沒有 feature maps 分辨率降低的概念。得到這些 patch 塊的表達后，進行 reshape，得到整個圖的 feature map，然后利用 decoder模型進行上采樣，得到預測結果。

其中，作者設計了多種 decoder 模型，來進行實驗，如下所示：

1) Naive upsampling (Naive) ：

　　兩層 1 × 1 conv + sync batch norm (w/ ReLU) + 1 × 1 conv.

2) Progressive UPsampling (PUP) ：

3) Multi-Level feature Aggregation (MLA)：

2. Experiment：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Sequence-to-Sequence 論文精讀（多層LSTM） NLP系列筆記-機器翻譯之Sequence-to-Sequence模型 Seq2Seq sequence-to-sequence模型簡介 sequence Semantic Segmentation -- (DeepLabv3)Rethinking Atrous Convolution for Semantic Image Segmentation論文解論文筆記3：SegFormer Simple and Efficient Design for Semantic Segmentation with Transformers 論文閱讀筆記十一：Rethinking Atrous Convolution for Semantic Image Segmentation（DeepLabv3)(CVPR2017) 【Semantic Segmentation】Segmentation綜述 semantic segmentation 和instance segmentation uvm的sequence