【開源】Transformer 在CV領域全面開花:新出跟蹤、分割、配准等總結


本文收錄 5 月 以來值得關注的 Transformer 相關開源論文,包括基於 Transformer 的自監督學習方法在 CV 任務中應用、視覺跟蹤、視頻預測、語義分割、圖像配准,以及 1 篇針對 Transformer 風格的網絡中,“attention layer”是否是必要的技術報告。

 

      01      

Self-Supervised Learning with Swin Transformers
來自清華&西安交通大學&微軟亞洲研究
提出以 Vision Transformers 作為骨干架構的自監督學習方法:MoBY,是 MoCo v2 和 BYOL 的結合,經過調整,在 ImageNet-1K 的線性評估上達到了合理的高准確率。通過 300 個周期的訓練,使用 DeiT-S 和 Swin-T,分別達到 72.8% 和 75.0% 的 top-1 精度。其性能略優於近期采用 DeiT 為骨干的 MoCo v3 和 DINO 的作品,但其技巧更輕便。
更值得注意是,多功能的 Swin Transformer 骨干可以在下游任務(如目標檢測和語義分割)上評估所學到的表征,與最近一些建立在 ViT/DeiT 上的方法相反,由於 ViT/DeiT 沒有被馴服用於這些密集的預測任務,因此只能在ImageNet-1K 上報告線性評估結果。
作者稱希望該結果可以促進對為 Transformer 架構設計的自監督學習方法進行更全面的評估。

  • 論文鏈接:https://arxiv.org/abs/2105.04553

  • 項目鏈接:https://github.com/SwinTransformer/Transformer-SSL


圖片
標簽:Transformer+自監督學習

      02      

TrTr: Visual Tracking with Transformer

來自東京大學

東京大學學者提出一種基於強大注意力機制的新型跟蹤器網絡:Transformer 編碼器-解碼器架構,以獲得全局和豐富的上下文相互依賴關系。在新的架構中,template image(模板圖像)的特征由編碼器部分的自注意模塊處理,可以學習到強大的上下文信息,然后將其發送到解碼器部分,以計算與另一個自注意模塊處理的搜索圖像特征的交叉注意。
此外,設計了分類和回歸頭,使用 Transformer 的輸出,基於狀無關的錨進行定位目標。在 VOT2018、VOT2019、OTB-100、UAV、NfS、TrackingNet 和 LaSOT基准上廣泛評估了該追蹤器 TrTr,與最先進的算法相比表現良好。

  • 論文鏈接:https://arxiv.org/abs/2105.03817

  • 項目鏈接:https://github.com/tongtybj/TrTr


圖片
標簽:Transformer+視覺跟蹤

      03      

Attention for Image Registration (AiR): an unsupervised Transformer approach

來自 Inria&Universit´e Cˆote d’Azur
為了探索圖像配准問題的先進學習方法以解決實際問題,作者在本文中提出一種在可變形圖像配准問題中引入注意力機制的方法。所提出的方法是基於用 Transformer 框架(AiR)學習變形場,不依賴於CNN,但也可以在GPGPU 設備上有效地訓練。或者說將圖像配准問題視為與語言翻譯任務相同,並引入一個 Transformer 來解決這個問題。所提出方法學習了一個無監督生成的變形圖,並在兩個基准數據集上進行了測試。

  • 論文鏈接:https://arxiv.org/abs/2105.02282

  • 項目鏈接:https://gitlab.inria.fr/zihwang/transformer-for-image-registration


圖片
標簽:Transformer+圖像識別+圖像配准

      04      

Local Frequency Domain Transformer Networks for Video Prediction

來自波恩大學
文章提出 Local Frequency Transformer Networks,完全可解釋和輕量級可微模塊,用於視頻預測任務。並證明該方法很容易擴展到執行運動分割和說明場景的組成,並且通過觀察未標記的視頻數據,學會以完全可解釋的方式產生可靠的預測。

  • 論文鏈接:https://arxiv.org/abs/2105.04637

  • 項目鏈接:https://github.com/AIS-Bonn/Local_Freq_Transformer_Net


圖片標簽:Transformer+視頻預測

      05      

Segmenter: Transformer for Semantic Segmentation

來自 Inria
提出一個基於 Vision Transformer(ViT)的新的語義分割方法,無需卷積,通過設計捕獲上下文信息,並優於基於 FCN 的方法。一系列具有不同分辨率的模型,從具有最先進的性能到具有快速推理和良好性能的模型,使其在精度和運行時間之間進行權衡。
所提出的基於 transformer 的生成類掩碼的解碼器,其性能優於線性基線,並可以擴展到執行更普遍的圖像分割任務。實驗結果也表明所提出方法在具有挑戰性的ADE20K數據集上產生了最先進的結果,並在 Pascal Context 和 Cityscapes基准上結果也不差。

  • 論文鏈接:https://arxiv.org/abs/2105.05633

  • 項目鏈接:https://github.com/rstrudel/segmenter


圖片

 

標簽:Transformer+語義分割

      06      

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet

來自牛津大學
vision transformers 在圖像分類和其他視覺任務上的強大性能常常被歸因於其多頭 attention(注意力)層的設計。然而,注意力在多大程度上負責這種強大的性能仍然不清楚。
在本篇簡短報告中,針對“注意力層到底有沒有必要”這一問題進行討論研究。具體來說,用應用在補丁維度上的前饋層取代了 vision transformer 中的注意層。由此產生的架構只是一系列以交替方式應用於補丁和特征維度的前饋層。在 ImageNet 的實驗中,該架構的表現出乎意料的好:一個以 ViT/DeiT 為基礎的模型獲得了 74.9% 的top-1 精度,而 ViT 和 DeiT 的精度分別為 77.9% 和 79.9%。
結果表明,除注意力外,vision transformer 的其他方面,如 patch embedding(斑塊嵌入),可能比以前認為的要對其強大的性能有效。作者希望這些結果能促使社會各界花更多的時間去了解為什么當前模型會有如此的效果。

  • 論文鏈接:https://arxiv.org/abs/2105.02723

  • 項目鏈接:https://github.com/lukemelas/do-you-even-need-attention


圖片


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM