論文筆記4:Segmenter: Transformer for Semantic Segmentation


論文地址:https://arxiv.org/abs/2105.05633

1 引言

圖像語義分割在單個圖像塊級別通常表現得比較模糊,文章提出了一種基於tansformer的語義分割模型,可以在網絡傳播過程中建模全局上下文信息。其網絡結構是在ViT模型的基礎上進行擴展,以適應語義分割任務。decoder部分使用linear decoder或mask transformer decoder,從輸出的嵌入中獲取類別信息。

在ADE20K上的表現超過之前的最佳網絡模型。

2 模型

2.1 Encoder

encoder部分采用與ViT模型相同的結構,將圖片轉換為tokens,然后經transformer層處理之后輸出。

2.2 Decoder

Mask Transformer:

  1. 引入可學習類別嵌入cls,它將會用來生成class mask。
  2. 將cls和output embedding送入decoder部分的transformer層處理。
  3. 將處理后的cls和output embedding做乘法,然后再經過一個softmax。
  4. 然后轉換成2D特征,經過上采樣恢復原輸入圖像尺寸。

3 總結

模型整體結構采用編解碼架構,encoder部分設計來源於ViT模型,decoder部分的靈感來源於Max-DeepLab和SOLO-v2,通過transformer層擴大感受野,並通過mask transformer來進行類別划分,相較於point-wise linear decoder,網絡性能明顯提升。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM