論文地址:https://arxiv.org/abs/2105.05633
1 引言
圖像語義分割在單個圖像塊級別通常表現得比較模糊,文章提出了一種基於tansformer的語義分割模型,可以在網絡傳播過程中建模全局上下文信息。其網絡結構是在ViT模型的基礎上進行擴展,以適應語義分割任務。decoder部分使用linear decoder或mask transformer decoder,從輸出的嵌入中獲取類別信息。
在ADE20K上的表現超過之前的最佳網絡模型。
2 模型
2.1 Encoder
encoder部分采用與ViT模型相同的結構,將圖片轉換為tokens,然后經transformer層處理之后輸出。
2.2 Decoder
Mask Transformer:
- 引入可學習類別嵌入cls,它將會用來生成class mask。
- 將cls和output embedding送入decoder部分的transformer層處理。
- 將處理后的cls和output embedding做乘法,然后再經過一個softmax。
- 然后轉換成2D特征,經過上采樣恢復原輸入圖像尺寸。
3 總結
模型整體結構采用編解碼架構,encoder部分設計來源於ViT模型,decoder部分的靈感來源於Max-DeepLab和SOLO-v2,通過transformer層擴大感受野,並通過mask transformer來進行類別划分,相較於point-wise linear decoder,網絡性能明顯提升。