ICCV2021 | 重新思考視覺transformers的空間維度

本文轉載自查看原文 2021-08-07 16:46 218

論文：Rethinking Spatial Dimensions of Vision Transformers

代碼：https://github.com/naver-ai/pit

獲取：在CV技術指南后台回復“0006”

點個關注，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

前言：

由於基於transformers的架構在計算機視覺建模方面具有創新性，因此對有效架構的設計約定的研究還較少。從 CNN 的成功設計原則出發，我們研究了空間維度轉換的作用及其對基於transformers的架構的有效性。

我們特別關注CNNs的降維原理；隨着深度的增加，傳統的 CNN 會增加通道維度並減少空間維度。我們憑經驗表明，這種空間降維也有利於transformers架構，並在原始 ViT 模型上提出了一種新型的基於池化的視覺transformers (Pooling-based Vision Transformer--PiT)。

我們表明 PiT 實現了針對 ViT 的改進模型能力和泛化性能。在廣泛的實驗中，我們進一步表明 PiT 在圖像分類、目標檢測和魯棒性評估等多項任務上優於baseline。

出發點

1. CNN 限制了空間交互，ViT 允許圖像中的所有位置通過transformers層交互。

2. 雖然ViT 是一種創新架構，並且已經證明了其強大的圖像識別能力，但它沿用了NLP中的 Transformer 架構，沒有任何變化。

3. CNN 的一些基本設計原則在過去十年中已被證明在計算機視覺領域有效，但並未得到充分反映。

因此，我們重新審視了 CNN 架構的設計原則，並研究了它們在應用於 ViT 架構時的功效。

創新思路

CNN 以大空間尺寸和小通道尺寸的特征開始，並逐漸增加通道尺寸，同時減小空間尺寸。由於稱為空間池化的層，這種維度轉換是必不可少的。現代 CNN 架構，包括 AlexNet、ResNet和 EfficientNet，都遵循這一設計原則。

池化層與每一層的感受野大小密切相關。一些研究表明，池化層有助於網絡的表現力和泛化性能。然而，與 CNN 不同的是，ViT 不使用池化層，而是在所有層中使用相同大小的空間。

首先，我們驗證了 CNN 上池化層的優勢。我們的實驗表明，池化層證明了 ResNet 的模型能力和泛化性能。為了將池化層的優勢擴展到 ViT，我們提出了一種基於池化的視覺transformers (PiT)。

PiT 是一種與池化層相結合的轉換器架構。它可以像在 ResNet 中一樣減少 ViT 結構中的空間大小。我們還研究了 PiT 與 ViT 相比的優勢，並確認池化層也提高了 ViT 的性能。

最后，為了分析 ViT 中池化層的效果，我們測量了 ViT 的空間交互比，類似於卷積架構的感受野大小。我們展示了池化層具有控制自注意力層中發生的空間交互大小的作用，這類似於卷積架構的感受野控制。

Methods

網絡架構維度配置的示意圖

我們將 ResNet50 、Vision Transformer (ViT) 和基於池化的 Vision Transformer (PiT) 可視化；(a) ResNet50 從輸入到輸出逐漸下采樣特征；(b) ViT 不使用池化層，因此所有層都保持特征維度；(c) PiT 涉及將層匯集到 ViT 中。