語音算法閱讀之SpecAugment

本文轉載自查看原文 2020-09-16 23:09 1603 asr/ 聲紋識別

 
         論文： 
        

          　　SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition 
        

 
         思想： 
        

 
         　　SpecAugment是一種log梅爾聲譜層面上的數據增強方法，可以將模型訓練的過擬合問題轉化為欠擬合問題，以便通過大網絡和長時訓練策略來緩解欠擬合問題，提升語音識別效果 
        

 
         模型： 
        

網絡框架采用LAS結構[1]，encoder部分采用2conv+max_pooling(stride=2)+d層的Bi-LSTM(cell=w)+attention結構；decoder部分采用2LSTM(cell=w)
語言模型融合[2]：embeddng (1024 for LibriSpeech／256 for Switchboard)+2LSTM(cell=300)

 
         訓練策略： 
        

　　　其中1、2、3分別為模型訓練的迭代次數三只模式，由短到長，S_r為學習率快速上升階段的step,S_noise為應用權重噪聲的開始的step,S_i為學習率指數衰減開始的step,S_f為指數衰減終止的step

均勻標簽平滑：不確定度為0.1，即正確的類別標簽置信度降低0.9，其他類別標簽置信度相應提升0.1，但是當學習率較小時，標簽平滑容易導致模型訓練不穩定，所以最好在學習率衰減之前應用權重噪聲較好

 
         實驗效果： 
        

 
         　　實驗中的增強參數如下 
        

 
         結論： 
        

 
         實戰： 
         https://github.com/DemisEom/SpecAugment

 
         　　env： 
        

          　　安裝：pip3 install SpecAugment 
        

 
         　　Usage：python3 spec_augment_test_TF.py／spec_augment_test_pytorch.py 
        

 
         　　增強效果： 
        

          原始聲譜 
        

          時域和頻域掩蔽 
        

 
         Reference: 
        

 
         [1] https://arxiv.org/abs/1508.01211 
        

 
         [2] http://www.quaero.org/media/files/bibliographie/sundermeyer_lstm_neural_interspeech2012.pdf 
        

 
         [3] https://arxiv.org/pdf/1904.08779.pdf 
        

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 語音識別算法閱讀之LAS 語音識別算法閱讀之DFSMN 語音識別算法閱讀之speechTransformer 語音識別算法閱讀之EESEN 語音識別算法閱讀之CTC 語音識別算法閱讀之TDNN-F 語音識別算法閱讀之SpeechTransformer(large mandarin) 語音識別算法閱讀之transformer-transducer(facebook) 語音識別算法閱讀之transformer-transducer(google) 語音識別算法閱讀之RNN-T-2013