論文:
TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS
思想:
論文作者借助RNN-T的整體架構,利用transformer替換RNN結構;因為transformer是一種非循環的attention機制,所以可以並行化計算,提升計算效率;此外,作者還對attention的上下文時序信息寬度做了限制,即僅利用有限寬度的上下文時序信息,在損失較小精度的條件下,可以滿足流式語音識別的要求;還有一點是,作者表明當transformer采用非限制的attention結構時,在librispeech數據集上能夠取得state-of-the-art的識別效果
說明:該輪文思路跟facebook的論文[1]基本一致,都是采用transformer替換RNN-T中的RNN結構,且均從限制attention上下文時序信息的寬度角度考慮,降低計算和延遲;但二者在細節方面略有不同,比如輸入特征維度、數據增強、模型大小、結點參數、位置編碼產生方式等均有所不同;此外,該輪文在解碼時采樣了語言模型融合的策略,提升識別效果;
模型:
模型以RNN-T為整體框架,包含transformer encoder網絡、transformer預測網絡和feed-forward聯合網絡;損失采用的RNN-T的損失,即最大化標簽序列對應所有對齊的概率和;
- transformer encoder:由多個block堆疊而成,每個block包含layer norm、multi-head attention、feed-forward network和resnet connection;

- 每個block的輸入都會先進行layer norm進行歸一化,使得訓練穩定,收斂更快
- multi-head attention有多個self-attention(Q=K=V)並連而成,輸入特征被轉換到多個子空間進行特征建模,最后再將各個子空間的輸出進行合並,得到高層次的特征編碼;需要說明的是,為提升計算效率,可以對attention所關注的上下文時序信息寬度進行控制;
- feed-forward network由多層全連接串聯而成,激活函數為ReLU;並且訓練時采用dropout防止過度擬合
- resnet connection的采樣一方面能夠為上層提供更多的特征信息,另一方面也使得訓練時反向傳播更加穩定
- transformer 預測網絡:具有跟encoder類似的結構,只不過預測網絡的attention不能利用未來信息,所以網絡的attention僅限定在歷史的狀態;此外,作者還通過限定attention的歷史狀態個數來降低計算復雜度,O(T2)->O(T)
- feed-forward聯合網絡:encoder的輸出和預測網絡的輸出進行線性組合之后,輸入到聯合網絡進行任務化學習;網絡由多層全連接層組成,最后一層為softmax;網絡的輸出為后驗概率分布


其中,AudioEncoder、LabelEncoder分別為encoder網絡和預測網絡輸出;P為聯合網絡輸出的后驗概率;t
i為時間序號;Label(z
1:i-1)表示預測網絡的歷史non-blank輸出序列
Loss:網絡的目標是最大化標簽序列對應的所有對齊的概率和,取負號是可轉化成最小化;

其中,P(y
i|x
i)代表第i個樣本的標簽序列對應的所有可能對齊的概率和;α(T
i,U
i)是采用前向算法計算得到的對齊路徑的概率和,前向算法在每個時間步上對路徑進行合並並更新累計概率變量α(t, u)
,實現高效的概率計算過程,α(t, u)表示為在時間t,經過狀態u的所有路徑的概率和;



其中,(zi,ti)表示輸出與ti時刻編碼特征的對齊
訓練:
- 數據集:語音數據集:LibriSpeech 970hours;文本數據集:LibriSpeech對應10M文本+額外800M本文
- 輸入特征:128log fbanks;下采樣幀率33.3hz;
- 特征增強specaugment[2]:通過[2]進行增強,僅采樣時間掩蔽和頻率掩蔽,且frequency masking(F = 50,mF = 2)andtimemasking(T = 30,mT = 10)
- 模型參數:
- transformer encoder網絡:18*block(feed-forward(layer-norm(x)+attentionlayer(layer-norm(x)))

- 預測網絡:2*block(feed-forward(layer-norm(x)+attentionlayer(layer-norm(x)))
- 聯合網絡:一層全連接(激活tanh)+一層softmax
- 學習率策略:ramp-up階段(0~4k steps):從0線性ramp-up到2.5e−4;hold階段(4k~30k steps):保持2.5e−4;指數衰減階段(30k~200k steps):衰減到2.5e−6為止
- 高斯噪聲(10k steps~):訓練時模型的權重參數引入高斯噪聲,提升魯棒性,高斯參數(μ = 0, σ = 0.01)
實驗結果:
- 當T-T的encoder采樣full時間序列attention時,效果優於BiLSTM的encoder結構;此外當T-T采用transformer結構的語言模型融合時能夠取得可比state-of-the-art的結果

- 對於encoder網絡,縮短attention利用的左右上下文時間序列寬度均會造成識別錯誤率的上升;對於預測網絡,其attention結構不利用未來的時間狀態信息,但縮短其利用的歷史狀態個數也會造成識別錯誤率的輕微上升;不過,當合理控制上下文狀態的個數,可以使得對識別結果的影響比較輕微



- 對於一個n層的transformer網絡,當right context=1時,當前步的輸出需要的延遲時間為(n-1)*30ms;如下圖,當n=3、幀率為33.3hz時,預測y7時的延遲為90ms

- 訓練速度:在參數量相似的條件下,T-T相對於基於LSTM的RNN-T訓練速度提升3.5倍(1 day:3.5 days)
結論:
- 提出了一種基於transformer的端到端的RNN-T結構,稱之為Transformer Transducer;該模型,一方面借助transformer的非循環結構,網絡可並行化計算,顯著提升訓練效率;另一方面,在LibriSpeech數據集上取得了新的state-of-the-art的效果
- Transformer Transducer還允許控制attention利用的上下文狀態個數,從而有效降低延遲和計算,在精度輕微損失的條件下,滿足流式語音識別的要求
Reference: