DeiT：使用Attention蒸餾Transformer

本文轉載自查看原文 2021-09-24 10:19 241 Transformer/ 計算機視覺/ 蒸餾/ AutoML

題目：Training data-efficient image transformers & distillation through attention

【GiantPandaCV導語】Deit是一個全Transformer的架構，沒有使用任何的卷及操作。其核心是將蒸餾方法引入VIT的訓練，引入了一種教師-學生的訓練策略，提出了token-based distillation。有趣的是，這種訓練策略使用卷積網絡作為教師網絡進行蒸餾，能夠比使用transformer架構的網絡作為教師取得更好的效果。

簡介

之前的ViT需要現在JFT-300M大型數據集上預訓練，然后在ImageNet-1K上訓練才能得到出色的結果，但這借助了額外的數據。

ViT文中也表示：“do not generalize well when trained on insufficient amounts of data”數據量不足會導致ViT效果變差。

針對以上問題，Deit核心共享是使用了蒸餾策略，能夠僅使用ImageNet-1K數據集就就可以達到83.1%的Top1。

文章貢獻如下：

僅使用Transformer，不引入Conv的情況下也能達到SOTA效果。
提出了基於token蒸餾的策略，這種針對transformer的蒸餾方法可以超越原始的蒸餾方法。
Deit發現使用Convnet作為教師網絡能夠比使用Transformer架構取得更好的效果。

知識蒸餾

Knowledge Distillation（KD）最初被Hinton提出，與Label smoothing動機類似，但是KD生成soft label的方式是通過教師網絡得到的。

KD可以視為將教師網絡學到的信息壓縮到學生網絡中。還有一些工作“Circumventing outlier of autoaugment with knowledge distillation”則將KD視為數據增強方法的一種。

KD能夠以soft的方式將歸納偏置傳遞給學生模型，Deit中使用Conv-Based架構作為教師網絡，將局部性的假設通過蒸餾方式引入Transformer中，取得了不錯的效果。

本文提出了兩種KD:

Soft Distillation: 使用KL散度衡量教師網絡和學生網絡的輸出，即Hinton提出的方法。

\[\mathcal{L}_{\text {global }}=(1-\lambda) \mathcal{L}_{\mathrm{CE}}\left(\psi\left(Z_{\mathrm{s}}\right), y\right)+\lambda \tau^{2} \mathrm{KL}\left(\psi\left(Z_{\mathrm{s}} / \tau\right), \psi\left(Z_{\mathrm{t}} / \tau\right)\right) \]

其中\(Z_s，Z_t\)分別代表學生網絡的logits輸出和教師網絡的logits輸出。

Hard-label Distillation: 本文提出的一個KD變體，將教師網絡得到的hard輸出作為label，即\(y_t=argmax_cZ_t(c)\)，該方法是無需調參的。

\[\mathcal{L}_{\text {global }}^{\text {hardDistill }}=\frac{1}{2} \mathcal{L}_{\mathrm{CE}}\left(\psi\left(Z_{s}\right), y\right)+\frac{1}{2} \mathcal{L}_{\mathrm{CE}}\left(\psi\left(Z_{s}\right), y_{\mathrm{t}}\right) \]