語音識別算法閱讀之transformer-transducer(google)


論文:
  TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS
思想:
  論文作者借助RNN-T的整體架構,利用transformer替換RNN結構;因為transformer是一種非循環的attention機制,所以可以並行化計算,提升計算效率;此外,作者還對attention的上下文時序信息寬度做了限制,即僅利用有限寬度的上下文時序信息,在損失較小精度的條件下,可以滿足流式語音識別的要求;還有一點是,作者表明當transformer采用非限制的attention結構時,在librispeech數據集上能夠取得state-of-the-art的識別效果
  說明:該輪文思路跟facebook的論文[1]基本一致,都是采用transformer替換RNN-T中的RNN結構,且均從限制attention上下文時序信息的寬度角度考慮,降低計算和延遲;但二者在細節方面略有不同,比如輸入特征維度、數據增強、模型大小、結點參數、位置編碼產生方式等均有所不同;此外,該輪文在解碼時采樣了語言模型融合的策略,提升識別效果;
模型:
  模型以RNN-T為整體框架,包含transformer encoder網絡、transformer預測網絡和feed-forward聯合網絡;損失采用的RNN-T的損失,即最大化標簽序列對應所有對齊的概率和;
  • transformer encoder:由多個block堆疊而成,每個block包含layer norm、multi-head attention、feed-forward network和resnet connection;
  1. 每個block的輸入都會先進行layer norm進行歸一化,使得訓練穩定,收斂更快
  2. multi-head attention有多個self-attention(Q=K=V)並連而成,輸入特征被轉換到多個子空間進行特征建模,最后再將各個子空間的輸出進行合並,得到高層次的特征編碼;需要說明的是,為提升計算效率,可以對attention所關注的上下文時序信息寬度進行控制;
  3. feed-forward network由多層全連接串聯而成,激活函數為ReLU;並且訓練時采用dropout防止過度擬合
  4. resnet connection的采樣一方面能夠為上層提供更多的特征信息,另一方面也使得訓練時反向傳播更加穩定
  • transformer 預測網絡:具有跟encoder類似的結構,只不過預測網絡的attention不能利用未來信息,所以網絡的attention僅限定在歷史的狀態;此外,作者還通過限定attention的歷史狀態個數來降低計算復雜度,O(T2)->O(T)
  • feed-forward聯合網絡:encoder的輸出和預測網絡的輸出進行線性組合之后,輸入到聯合網絡進行任務化學習;網絡由多層全連接層組成,最后一層為softmax;網絡的輸出為后驗概率分布
 其中,AudioEncoder、LabelEncoder分別為encoder網絡和預測網絡輸出;P為聯合網絡輸出的后驗概率;t i為時間序號;Label(z 1:i-1)表示預測網絡的歷史non-blank輸出序列

   Loss:網絡的目標是最大化標簽序列對應的所有對齊的概率和,取負號是可轉化成最小化;

 其中,P(y i|x i)代表第i個樣本的標簽序列對應的所有可能對齊的概率和;α(T i,U i)是采用前向算法計算得到的對齊路徑的概率和,前向算法在每個時間步上對路徑進行合並並更新累計概率變量α(t, u) ,實現高效的概率計算過程,α(t, u)表示為在時間t,經過狀態u的所有路徑的概率和;
 
 其中,(zi,ti)表示輸出與ti時刻編碼特征的對齊
訓練:
  • 數據集:語音數據集:LibriSpeech 970hours;文本數據集:LibriSpeech對應10M文本+額外800M本文
  • 輸入特征:128log fbanks;下采樣幀率33.3hz;
  • 特征增強specaugment[2]:通過[2]進行增強,僅采樣時間掩蔽和頻率掩蔽,且frequency masking(F = 50,mF = 2)andtimemasking(T = 30,mT = 10)
  • 模型參數:
  1. transformer encoder網絡:18*block(feed-forward(layer-norm(x)+attentionlayer(layer-norm(x)))
  1. 預測網絡:2*block(feed-forward(layer-norm(x)+attentionlayer(layer-norm(x)))
  2. 聯合網絡:一層全連接(激活tanh)+一層softmax
  • 學習率策略:ramp-up階段(0~4k steps):從0線性ramp-up到2.5e−4;hold階段(4k~30k steps):保持2.5e−4;指數衰減階段(30k~200k steps):衰減到2.5e−6為止
  • 高斯噪聲(10k steps~):訓練時模型的權重參數引入高斯噪聲,提升魯棒性,高斯參數(μ = 0, σ = 0.01)
實驗結果:
  • 當T-T的encoder采樣full時間序列attention時,效果優於BiLSTM的encoder結構;此外當T-T采用transformer結構的語言模型融合時能夠取得可比state-of-the-art的結果
  • 對於encoder網絡,縮短attention利用的左右上下文時間序列寬度均會造成識別錯誤率的上升;對於預測網絡,其attention結構不利用未來的時間狀態信息,但縮短其利用的歷史狀態個數也會造成識別錯誤率的輕微上升;不過,當合理控制上下文狀態的個數,可以使得對識別結果的影響比較輕微
  • 對於一個n層的transformer網絡,當right context=1時,當前步的輸出需要的延遲時間為(n-1)*30ms;如下圖,當n=3、幀率為33.3hz時,預測y7時的延遲為90ms
  • 訓練速度:在參數量相似的條件下,T-T相對於基於LSTM的RNN-T訓練速度提升3.5倍(1 day:3.5 days)
結論:
  • 提出了一種基於transformer的端到端的RNN-T結構,稱之為Transformer Transducer;該模型,一方面借助transformer的非循環結構,網絡可並行化計算,顯著提升訓練效率;另一方面,在LibriSpeech數據集上取得了新的state-of-the-art的效果
  • Transformer Transducer還允許控制attention利用的上下文狀態個數,從而有效降低延遲和計算,在精度輕微損失的條件下,滿足流式語音識別的要求
Reference:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM