語音識別算法閱讀之RNN-T-2013


論文:
  RNNT:SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS,2013
  LSTM結構:

 

 

   多層雙向LSTM結構:
思想:
  CTC對於當前時刻的輸出只與當前時刻輸入有關p(k|t),而RNN-T引入語音學的信息,不僅與當前時刻輸入有關,還有歷史的輸出有關p(k|t,u);即RNN-T的兩個網絡輸出,一個是CTC輸出激活,另一個語言學預測模型輸出激活,二者結合,一起輸入到新的前饋神經網絡,從而獲得輸出分布p(k|t,u);實驗證明該思路有助於減少asr的刪除錯誤
模型:
  RNN-T 包含三個網絡結構分支,一個是CTC網絡、一個是語言學預測網絡、第三個是前饋輸出網絡;
  • CTC網絡采用多層雙向LSTM結構,輸出為phoneme label加blank組成的后驗概率分布
  • 預測網絡也采用多層非雙向LSTM結構,輸出為當前時刻的條件概率
  • 聯合網絡采用前饋神經網絡DNN結構,輸出為基於當前時刻和歷史輸出文本信息的后驗概率分布
細節:
  • 輸入:41fbank+一階差分+二階差分=123維
  • 輸入數據進行歸一化為正態分布
  • CTC網絡預訓練采用CTC損失、語言模型預測網絡預訓練采用交叉熵損失、聯合網絡采用CTC損失
  • 訓練過程中采用正則化思想引入驗證集早停和添加高斯權重噪聲機制
  • 輸出類別包括61phoneme+blank,最后映射成39個類別
  • 解碼采用beam search,論文認為比prefix更快且更高效
訓練:
  • 數據集:TIMIT,train 462speakers(separate 50speakers for dev)/test 24speakers
  • CTC網絡、預測網絡采用均勻分布[-0.1,0.1]隨機初始化或預訓練初始化、輸出網絡采用[-0.1,0.1]隨機初始化
  • CTC網絡和預測網絡預訓練時不引入權重噪聲機制,重訓練時引入噪聲
  • 預測網絡預訓練時實際采用了訓練集文本,但是對於大詞匯量任務最好采用外部獨立文本數據
  • 優化方法SGD,初始學習率0.0004,momentum=0.9
  • 模型參數每訓練序列后添加一次高斯權重噪聲,σ = 0.075
  • 利用驗證集PER進行早停
  • 解碼時beam width = 100
實驗:
  • 通過一系列tricks,RNN-T在TIMIT測試集上得到的最好效果為PER 17.7%
  • LSTM結構比tanh在任務中表現的效果更好
  • CTC網絡結構,雙向LSTM比單向LSTM具有輕微的優勢
  • 網絡深度比網絡寬度更重要
  • 權重隨機初始化時,transduser機制具有輕微優勢;但是采用CTC網絡和預測網絡預訓練機制,優勢更加明顯
Reference:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM