BLSTM的訓練算法、解碼算法以及模型的改進


摘要

BLSTM解碼時,解碼器需要等待整個音頻到達后才開始解碼,因為時間反方向的前向傳播需要末尾的歷史信息。BLSTM這一延時問題使其不適用與實時語音識別。context-sensitive-chunk BLSTM(CSC-LSTM)和latency-controlled BLSTM(LC-BLSTM,延時控制-雙向LSTM)都將整句切分為數個chunks。通過在每個chunk中添加左右上下文幀,並以chunk為單位進行前向計算,BLSTM的延遲可以控制為一個chunk左右的時長,並且與傳統BLSTM相比,可以保持原有准確率基本不變。文本提出了兩種LC-BLSTM。通過使用不同類型的神經網絡拓撲以初始化BLSTM的cell狀態;通過上下文幀和快速在線識別以降低計算開銷。320h Swbd實驗顯示本文的解碼速度能加速24%至61%而無識別率的損失。

   

LSTM聲學模型(包括其變形,比如highway LSTM網絡)中,雙向LSTM的識別率遠遠優於單向LSTM。然而雙向LSTM模型的延遲極高,不適用於在線語音識別。為了克服這一限制,文獻[1]、文獻[2]、文獻[10]和文獻[11]研究了基於Chunk的訓練與解碼。

   

Chunk BPTT

文獻[5]提出了Chunk BPTT

加速BPTT訓練

  • 將特征序列切分為固定長度的chunks
  • 將多個chunks組合為更大的batches

對Chunk大小的調優

使用一塊NVIDIA GTX680 GPUIAM手寫數據集的訓練時間如下:

chunk大小設定為100能取得FER與訓練時間之間的平衡。

   

epochwise BPTT

GPU的內存大小限制了一個mini-batch中的序列數(對於很長的序列來說),這會導致加速效果較差。

   

CSC BPTT

文獻[6]提出CSCContext-Sensitive-Chunk BPTT訓練方法以及基於CSCs的解碼方法,並應用於手寫識別中。

   

epochwise BPTT可表示為0-Full+0,由於此處的chunk即完整的幀序列

   

BPTT在BLSTM-HMM中的應用,以及提出了基於CSCs的解碼方法

文獻[7]CSC-BPTT應用於語音識別中。

   

受到語音語句中協同發音的影響,每個音素的語音幀基本上只受之前和之后幾幀影響。那么,就沒有必要用BLSTM對整句話進行建模。因此,只需對一個較小的chunk建模即可。

   

CSC的示例配置為"21-64+21",若基於CSC的解碼中,chunk之間不存在幀的重疊,那么延遲為85幀或850毫秒。

   

基於CSC的解碼

對於使用CSC-BPTT訓練的BLSTM,待識別的語句也要使用與訓練時相同的配置切分為多個CSCs

若需要考慮到計算復雜度,那么解碼時CSCs之間可以沒有重疊;否則,CSCs之間可以有若干幀的重疊,以取得更高的識別率。比如:

   

LC-BLSTM

   

CSC-BLSTM未利用歷史chunk的記憶狀態信息,這帶來了額外的計算。文獻[8]提出了延時控制-BLSTMLC-BLSTM)。在時間反向計算中,LC-BLSTM只使用修剪過的下文信息用作cell狀態的初始化。

   

   

LC-BLSTM的改進

由於LC-BLSTM的時間反向計算中需要額外對右下文進行計算,這大大增加了計算量。為此,文獻[9]提出了LC-BLSTM-FALC-BLSTM-FABDILC-BLSTM-FABSR

   

LC-BLSTM Without Forward approximation

   

LC-BLSTM-FA(With Forward approximation)

LC-BLSTM-FA去除了上述無用的計算

   

   

本節介紹兩種效率改進的LC-BLSTM,用於快速實時在線語音識別

LC-BLSTM-FABDI(Forward Approximation and Backward DNN Initialization)

每個BLSTM層的前向計算步可以分解為:

時間正向:

時間反向:

   

   

   

LC-BLSTM-FABSR(Forward Approximation and Backward Simple RNN)

第二種結構被稱為"forward approximation and back-

SRNN的訓練需要處理長程依賴,因此容易發生梯度爆炸。為此在LC-BLSTM-FABSR的訓練中,需要使用更為嚴格的梯度修剪以促進收斂。

實驗表明,LC-BLSTM-FAWER優於LC-BLSTM-FABDILC-BLSTM-FABSR,但LC-BLSTM-FABDILC-BLSTM-FABSR的解碼速度比前者快。

參考文獻

  1. A. Zeyer, R. Schluter, and H. Ney, "Towards online-recognition with deep bidirectional LSTM acoustic models," Proceedings of Interspeech, vol. 08-12-Sept, pp. 3424–3428, 2016.
  2. P. Doetsch, M. Kozielski, and H. Ney, "Fast and Robust Training of Recurrent Neural Networks for Offline Handwriting Recognition," Proceedings of International Conference on Frontiers in Handwriting Recognition, ICFHR, vol. 2014-Decem, pp. 279–284, 2014.
  3. K. Chen, Z.-J. Yan, and Q. Huo, "Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach," in Proceedings of the Interspeech, 2015.
  4. A.-r. Mohamed, F. Seide, D. Yu, J. Droppo, A. Stoicke, G. Zweig, and G. Penn, "Deep bi-directional recurrent networks over spectral windows," in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 78–83.
  5. P. Doetsch, M. Kozielski, and H. Ney, "Fast and Robust Training of Recurrent Neural Networks for Offline Handwriting Recognition," Proceedings of International Conference on Frontiers in Handwriting Recognition, ICFHR, vol. 2014-Decem, pp. 279–284, 2014.
  6. K. Chen, Z.-J. Yan, and Q. Huo, "A context-sensitive-chunk BPTT approach to training deep LSTM/BLSTM recurrent neural networks for offline handwriting recognition," Proc. ICDAR-2015.
  7. K. Chen, Z.-J. Yan, and Q. Huo, "Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach," in Proceedings of the Interspeech, 2015.
  8. Yu Zhang, Guoguo Chen, Dong Yu, and Kaisheng Yao, "High- way long short-term memory RNNs for distant speech recog- nition," in IEEE International Conference of Acoustics,Speech and Signal Processing (ICASSP), 2016, pp. 5755–5759.
  9. IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION. Shaofei Xue, Zhijie Yan, Alibaba Inc, China


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM