語音識別算法閱讀之transformer-transducer(google)

本文轉載自查看原文 2020-09-16 22:48 2274 asr

 
         論文： 
        

          　　TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS 
        

 
         思想： 
        

 
         　　論文作者借助RNN-T的整體架構，利用transformer替換RNN結構；因為transformer是一種非循環的attention機制，所以可以並行化計算，提升計算效率；此外，作者還對attention的上下文時序信息寬度做了限制，即僅利用有限寬度的上下文時序信息，在損失較小精度的條件下，可以滿足流式語音識別的要求；還有一點是，作者表明當transformer采用非限制的attention結構時，在librispeech數據集上能夠取得state-of-the-art的識別效果 
        

          　　說明：該輪文思路跟facebook的論文[1]基本一致，都是采用transformer替換RNN-T中的RNN結構，且均從限制attention上下文時序信息的寬度角度考慮，降低計算和延遲；但二者在細節方面略有不同，比如輸入特征維度、數據增強、模型大小、結點參數、位置編碼產生方式等均有所不同；此外，該輪文在解碼時采樣了語言模型融合的策略，提升識別效果； 
        

 
         模型： 
        

 
         　　模型以RNN-T為整體框架，包含transformer encoder網絡、transformer預測網絡和feed-forward聯合網絡；損失采用的RNN-T的損失，即最大化標簽序列對應所有對齊的概率和； 
        

transformer encoder：由多個block堆疊而成，每個block包含layer norm、multi-head attention、feed-forward network和resnet connection；

每個block的輸入都會先進行layer norm進行歸一化，使得訓練穩定，收斂更快
multi-head attention有多個self-attention(Q=K=V)並連而成，輸入特征被轉換到多個子空間進行特征建模，最后再將各個子空間的輸出進行合並，得到高層次的特征編碼;需要說明的是，為提升計算效率，可以對attention所關注的上下文時序信息寬度進行控制；
feed-forward network由多層全連接串聯而成，激活函數為ReLU；並且訓練時采用dropout防止過度擬合
resnet connection的采樣一方面能夠為上層提供更多的特征信息，另一方面也使得訓練時反向傳播更加穩定

transformer 預測網絡：具有跟encoder類似的結構，只不過預測網絡的attention不能利用未來信息，所以網絡的attention僅限定在歷史的狀態；此外，作者還通過限定attention的歷史狀態個數來降低計算復雜度，O(T²)->O(T)
feed-forward聯合網絡：encoder的輸出和預測網絡的輸出進行線性組合之后，輸入到聯合網絡進行任務化學習；網絡由多層全連接層組成，最后一層為softmax；網絡的輸出為后驗概率分布

          　其中，AudioEncoder、LabelEncoder分別為encoder網絡和預測網絡輸出；P為聯合網絡輸出的后驗概率；t 
         i為時間序號；Label(z 
         1:i-1)表示預測網絡的歷史non-blank輸出序列 
        

　　　Loss:網絡的目標是最大化標簽序列對應的所有對齊的概率和，取負號是可轉化成最小化；

          　其中，P(y 
         i|x 
         i)代表第i個樣本的標簽序列對應的所有可能對齊的概率和；α(T 
         i,U 
         i)是采用前向算法計算得到的對齊路徑的概率和，前向算法在每個時間步上對路徑進行合並並更新累計概率變量α(t, u) 
         ，實現高效的概率計算過程，α(t, u)表示為在時間t，經過狀態u的所有路徑的概率和； 
        

          　其中，(zi,ti)表示輸出與ti時刻編碼特征的對齊 
        

 
         訓練： 
        

數據集：語音數據集：LibriSpeech 970hours；文本數據集：LibriSpeech對應10M文本＋額外800M本文
輸入特征：128log fbanks；下采樣幀率33.3hz;
特征增強specaugment[2]：通過[2]進行增強，僅采樣時間掩蔽和頻率掩蔽，且frequency masking(F = 50,mF = 2)andtimemasking(T = 30,mT = 10)
模型參數：

transformer encoder網絡：18*block(feed-forward(layer-norm(x)+attentionlayer(layer-norm(x)))

預測網絡：2*block(feed-forward(layer-norm(x)+attentionlayer(layer-norm(x)))
聯合網絡：一層全連接(激活tanh)＋一層softmax

學習率策略：ramp-up階段(0～4k steps)：從0線性ramp-up到2.5e−4；hold階段(4k~30k steps):保持2.5e−4；指數衰減階段(30k～200k steps):衰減到2.5e−6為止
高斯噪聲(10k steps~)：訓練時模型的權重參數引入高斯噪聲，提升魯棒性，高斯參數(μ = 0, σ = 0.01)

 
         實驗結果： 
        

當T-T的encoder采樣full時間序列attention時，效果優於BiLSTM的encoder結構；此外當T-T采用transformer結構的語言模型融合時能夠取得可比state-of-the-art的結果

對於encoder網絡，縮短attention利用的左右上下文時間序列寬度均會造成識別錯誤率的上升；對於預測網絡，其attention結構不利用未來的時間狀態信息，但縮短其利用的歷史狀態個數也會造成識別錯誤率的輕微上升；不過，當合理控制上下文狀態的個數，可以使得對識別結果的影響比較輕微

對於一個n層的transformer網絡，當right context＝1時，當前步的輸出需要的延遲時間為(n-1)*30ms;如下圖，當n＝3、幀率為33.3hz時，預測y7時的延遲為90ms

訓練速度：在參數量相似的條件下，T-T相對於基於LSTM的RNN-T訓練速度提升3.5倍(1 day:3.5 days)

 
         結論： 
        

提出了一種基於transformer的端到端的RNN-T結構，稱之為Transformer Transducer；該模型，一方面借助transformer的非循環結構，網絡可並行化計算，顯著提升訓練效率；另一方面，在LibriSpeech數據集上取得了新的state-of-the-art的效果
Transformer Transducer還允許控制attention利用的上下文狀態個數，從而有效降低延遲和計算，在精度輕微損失的條件下，滿足流式語音識別的要求

 
         Reference： 
        

          [1] 
         https://arxiv.org/pdf/1910.12977.pdf 
        

          [2] 
         https://arxiv.org/pdf/1904.08779.pdf 
        

          [3] 
         https://arxiv.org/pdf/2002.02562.pdf 
        

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 語音識別算法閱讀之transformer-transducer(facebook) 語音識別與 RNN-Transducer 概述語音識別算法閱讀之DFSMN 語音識別算法閱讀之speechTransformer 語音識別算法閱讀之EESEN 語音識別算法閱讀之CTC 語音識別算法閱讀之LAS 語音識別算法閱讀之SpeechTransformer(large mandarin) 語音識別算法閱讀之RNN-T-2013 語音識別算法閱讀之RNN-T-2018