AST: Audio Spectrogram Transformer

本文轉載自查看原文 2021-07-21 20:14 191

AST: Audio Spectrogram Transformer

2021-07-21 19:38:36

Paper: https://arxiv.org/pdf/2104.01778.pdf

Code: https://github.com/YuanGongND/ast

1. Background and Motivation:

最近 CNN+Transformer 的混合框架開始盛行，作者提出一個疑問：如果 Transformer 已經可以獲得較好的結果了，那么是否還要使用 CNN 呢？作者提出了一個完全是 self-attention 的網絡來處理音頻信息，所提出的方法稱為 Audio Spectrogram Transformer (AST)。作者總結了如下幾點優勢：

1). 性能好：在三個庫上均獲得了 SOTA 的結果；

2). 自然的支持變長的輸入，可以用於多種任務；

3). 與 CNN-Transformer 的框架相比，作者提出的方法可以收斂的更快，結構更加簡單。

2. AST Model:

如上圖所示，作者首先將 t 秒鍾的 audio 信息轉換為一個 128-D 的 logMel filterbank (fbank) features，通過每10 ms 進行一次 25 ms 的Hamming window 進行處理。這樣可以得到一個 128*100t spectrogram 作為 AST 模型的輸入。然后對這個輸入進行 patch 的划分，然后每一個 patch 的維度被映射為 768-D。然后用可學習的位置編碼映射，對每一個 patch 進行位置學習。得到的向量，與 feature embedding 進行相加。作者也添加了一個可學習的 [CLS] 符號。

由於語音數據並不多，作者想用 ImageNet 預訓練的模型進行遷移。因此，作者提出了一種 cut and bi-linear interpolate method 進行位置映射的適應。

3. Experimental results:

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Transformer transformer Transformer transformer Transformer Transformer transformer Transformer transformer ast入門（一）