可作為CV backbone的Transformer：Swin Transformer_Hierarchical Vision Transformer using Shifted Windows

本文轉載自查看原文 2021-05-21 14:55 1193 論文閱讀/ 深度學習

摘要

　　提出新的視覺transformer，稱之為Swin transformer，能作為視覺任務的通用backbone。 tranformer從語言到視覺的挑戰源於這兩個域的不同，如與文本中的字相比，視覺實體的變化范圍很大，有高分辨率的像素。為處理這些不同，提出了一個層級的transformer，采用移動的窗口計算表征。移動窗口方案可以帶來更高的效率，通過限制非重疊局部窗口的自注意力計算，同時允許跨窗口連接實現。這種層次結構具有在不同尺度上建模的靈活性，並具有與圖像大小相關的線性計算復雜度。

　　Swin Transformer能夠兼容廣泛的視覺任務，包括圖像分類(在ImageNet-1K的最高准確率86.4)和高密度預測任務，如目標檢測(在COCO test-dev數據上58.7 box AP和51.1 mask AP)和語義分割(在ADE20K val上53.5 mIoU)。它在coco數據上，比之前的sota模型多2.7個box ap,2.6個mask ap，在ADE20K上，比之前sota多3.2個mIoU。代碼：https://github.com/microsoft/Swin-Transformer

方法

整體結構

圖3為小版本（Swin - T)
先將輸入的RGB圖像切分成不重疊的patch，每個patch當作token,其特征設置為原始rgb像素值的concate。實驗中，使用大小為4x4的patch,因此每個patch的特征維度是4x4x3=48，應用線性嵌入層投影至任意維度(表示為C)。
swin transformer 塊應用到patch的token上，保持tokens的數量（H/4xW/4),與線性嵌入一起稱之為stage 1.
為產生具有層次的表征，隨着網絡加深，token的數量通過patch合並層縮減，第一個patch合並層將相鄰2 × 2的每一組patch的特征拼接起來，並在4c維的拼接特征上應用一個線性層
這將token的數量縮減了4倍（分辨率2倍下采樣），輸出維度設為2C，隨后應用Swin transformer塊進行特征變換，分辨率保持在H/8xH/8。第一個塊的patch合並和特征轉換表示為stage 2，這個步驟重復兩次，分別為stage 3和stage 4，輸出分辨率分別為H/16xH/16和H/32xH/32，與經典CNN網絡有相同的分辨率（如 vgg和ResNet)，因此，提出的結構能方便的替換現有方法在各任務上的backbone。
swin transformer 塊

　　　　基於移動窗口，通過替換transformer中標准的多頭自注意力模塊構建，其它層相同。如圖3（b),swin transformer由基於MSA的移動窗口，后跟一個2層的MLP（之間采用GELU非線性）組成。每個MSA模塊和MLP之前采用層歸一化，每個模塊后采用殘差連接。

基於自注意力的移動窗口

　　　全局計算的復雜度是關於token數量的二次方，當需要大量的token集合用於稠密預測或者表示一個高分辨率圖片時，這並不適合。非重疊窗口的自注意力機制為了高效建模，我們提出在局部窗口內計算自注意。窗口被安排以不重疊的方式均勻地分割圖像。假設每個窗口包含MxM個patch,全局MSA和基於窗口的MSA的計算復雜度為(M默認為7)：