AST: Audio Spectrogram Transformer
2021-07-21 19:38:36
Paper: https://arxiv.org/pdf/2104.01778.pdf
Code: https://github.com/YuanGongND/ast
1. Background and Motivation:
最近 CNN+Transformer 的混合框架開始盛行,作者提出一個疑問:如果 Transformer 已經可以獲得較好的結果了,那么是否還要使用 CNN 呢?作者提出了一個完全是 self-attention 的網絡來處理音頻信息,所提出的方法稱為 Audio Spectrogram Transformer (AST)。作者總結了如下幾點優勢:
1). 性能好:在三個庫上均獲得了 SOTA 的結果;
2). 自然的支持變長的輸入,可以用於多種任務;
3). 與 CNN-Transformer 的框架相比,作者提出的方法可以收斂的更快,結構更加簡單。
2. AST Model:
如上圖所示,作者首先將 t 秒鍾的 audio 信息轉換為 一個 128-D 的 logMel filterbank (fbank) features,通過每10 ms 進行一次 25 ms 的Hamming window 進行處理。這樣可以得到一個 128*100t spectrogram 作為 AST 模型的輸入。然后對這個輸入進行 patch 的划分,然后每一個 patch 的維度被映射為 768-D。然后用可學習的 位置編碼映射,對每一個 patch 進行位置學習。得到的向量,與 feature embedding 進行相加。作者也添加了一個可學習的 [CLS] 符號。
由於語音數據並不多,作者想用 ImageNet 預訓練的模型進行遷移。因此,作者提出了一種 cut and bi-linear interpolate method 進行位置映射的適應。
3. Experimental results:
==