AST: Audio Spectrogram Transformer


AST: Audio Spectrogram Transformer

2021-07-21 19:38:36

 

Paperhttps://arxiv.org/pdf/2104.01778.pdf 

Codehttps://github.com/YuanGongND/ast 

 

1. Background and Motivation:

最近 CNN+Transformer 的混合框架開始盛行,作者提出一個疑問:如果 Transformer 已經可以獲得較好的結果了,那么是否還要使用 CNN 呢?作者提出了一個完全是 self-attention 的網絡來處理音頻信息,所提出的方法稱為 Audio Spectrogram Transformer (AST)。作者總結了如下幾點優勢:

1). 性能好:在三個庫上均獲得了 SOTA 的結果;

2). 自然的支持變長的輸入,可以用於多種任務;

3). 與 CNN-Transformer 的框架相比,作者提出的方法可以收斂的更快,結構更加簡單。

 

 

2.  AST Model

如上圖所示,作者首先將 t 秒鍾的 audio 信息轉換為 一個 128-D 的 logMel filterbank (fbank) features,通過每10 ms 進行一次 25 ms 的Hamming window 進行處理。這樣可以得到一個 128*100t spectrogram 作為 AST 模型的輸入。然后對這個輸入進行 patch 的划分,然后每一個 patch 的維度被映射為 768-D。然后用可學習的 位置編碼映射,對每一個 patch 進行位置學習。得到的向量,與 feature embedding 進行相加。作者也添加了一個可學習的 [CLS] 符號。

 

由於語音數據並不多,作者想用 ImageNet 預訓練的模型進行遷移。因此,作者提出了一種 cut and bi-linear interpolate method 進行位置映射的適應。

 

3. Experimental results:

 

 

 

  

== 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM