摘要
BLSTM解碼時,解碼器需要等待整個音頻到達后才開始解碼,因為時間反方向的前向傳播需要末尾的歷史信息。BLSTM這一延時問題使其不適用與實時語音識別。context-sensitive-chunk BLSTM(CSC-LSTM)和latency-controlled BLSTM(LC-BLSTM,延時控制-雙向LSTM)都將整句切分為數個chunks。通過在每個chunk中添加左右上下文幀,並以chunk為單位進行前向計算,BLSTM的延遲可以控制為一個chunk左右的時長,並且與傳統BLSTM相比,可以保持原有准確率基本不變。文本提出了兩種LC-BLSTM。通過使用不同類型的神經網絡拓撲以初始化BLSTM的cell狀態;通過上下文幀和快速在線識別以降低計算開銷。320h Swbd實驗顯示本文的解碼速度能加速24%至61%而無識別率的損失。
在LSTM聲學模型(包括其變形,比如highway LSTM網絡)中,雙向LSTM的識別率遠遠優於單向LSTM。然而雙向LSTM模型的延遲極高,不適用於在線語音識別。為了克服這一限制,文獻[1]、文獻[2]、文獻[10]和文獻[11]研究了基於Chunk的訓練與解碼。
Chunk BPTT
文獻[5]提出了Chunk BPTT。
加速BPTT訓練
- 將特征序列切分為固定長度的chunks
- 將多個chunks組合為更大的batches
對Chunk大小的調優
使用一塊NVIDIA GTX680 GPU對IAM手寫數據集的訓練時間如下:
將chunk大小設定為100能取得FER與訓練時間之間的平衡。
epochwise BPTT
GPU的內存大小限制了一個mini-batch中的序列數(對於很長的序列來說),這會導致加速效果較差。
CSC BPTT
文獻[6]提出CSC(Context-Sensitive-Chunk) BPTT訓練方法以及基於CSCs的解碼方法,並應用於手寫識別中。
epochwise BPTT可表示為0-Full+0,由於此處的chunk即完整的幀序列
BPTT在BLSTM-HMM中的應用,以及提出了基於CSCs的解碼方法
文獻[7]將CSC-BPTT應用於語音識別中。
受到語音語句中協同發音的影響,每個音素的語音幀基本上只受之前和之后幾幀影響。那么,就沒有必要用BLSTM對整句話進行建模。因此,只需對一個較小的chunk建模即可。
CSC的示例配置為"21-64+21",若基於CSC的解碼中,chunk之間不存在幀的重疊,那么延遲為85幀或850毫秒。
基於CSC的解碼
對於使用CSC-BPTT訓練的BLSTM,待識別的語句也要使用與訓練時相同的配置切分為多個CSCs。
若需要考慮到計算復雜度,那么解碼時CSCs之間可以沒有重疊;否則,CSCs之間可以有若干幀的重疊,以取得更高的識別率。比如:
LC-BLSTM
CSC-BLSTM未利用歷史chunk的記憶狀態信息,這帶來了額外的計算。文獻[8]提出了延時控制-BLSTM(LC-BLSTM)。在時間反向計算中,LC-BLSTM只使用修剪過的下文信息用作cell狀態的初始化。
LC-BLSTM的改進
由於LC-BLSTM的時間反向計算中需要額外對右下文進行計算,這大大增加了計算量。為此,文獻[9]提出了LC-BLSTM-FA、LC-BLSTM-FABDI與LC-BLSTM-FABSR
LC-BLSTM Without Forward approximation
LC-BLSTM-FA(With Forward approximation)
LC-BLSTM-FA去除了上述無用的計算
本節介紹兩種效率改進的LC-BLSTM,用於快速實時在線語音識別
LC-BLSTM-FABDI(Forward Approximation and Backward DNN Initialization)
每個BLSTM層的前向計算步可以分解為:
時間正向:
時間反向:
LC-BLSTM-FABSR(Forward Approximation and Backward Simple RNN)
第二種結構被稱為"forward approximation and back-
SRNN的訓練需要處理長程依賴,因此容易發生梯度爆炸。為此在LC-BLSTM-FABSR的訓練中,需要使用更為嚴格的梯度修剪以促進收斂。
實驗表明,LC-BLSTM-FA的WER優於LC-BLSTM-FABDI、LC-BLSTM-FABSR,但LC-BLSTM-FABDI和LC-BLSTM-FABSR的解碼速度比前者快。
參考文獻
- A. Zeyer, R. Schluter, and H. Ney, "Towards online-recognition with deep bidirectional LSTM acoustic models," Proceedings of Interspeech, vol. 08-12-Sept, pp. 3424–3428, 2016.
- P. Doetsch, M. Kozielski, and H. Ney, "Fast and Robust Training of Recurrent Neural Networks for Offline Handwriting Recognition," Proceedings of International Conference on Frontiers in Handwriting Recognition, ICFHR, vol. 2014-Decem, pp. 279–284, 2014.
- K. Chen, Z.-J. Yan, and Q. Huo, "Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach," in Proceedings of the Interspeech, 2015.
- A.-r. Mohamed, F. Seide, D. Yu, J. Droppo, A. Stoicke, G. Zweig, and G. Penn, "Deep bi-directional recurrent networks over spectral windows," in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 78–83.
- P. Doetsch, M. Kozielski, and H. Ney, "Fast and Robust Training of Recurrent Neural Networks for Offline Handwriting Recognition," Proceedings of International Conference on Frontiers in Handwriting Recognition, ICFHR, vol. 2014-Decem, pp. 279–284, 2014.
- K. Chen, Z.-J. Yan, and Q. Huo, "A context-sensitive-chunk BPTT approach to training deep LSTM/BLSTM recurrent neural networks for offline handwriting recognition," Proc. ICDAR-2015.
- K. Chen, Z.-J. Yan, and Q. Huo, "Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach," in Proceedings of the Interspeech, 2015.
- Yu Zhang, Guoguo Chen, Dong Yu, and Kaisheng Yao, "High- way long short-term memory RNNs for distant speech recog- nition," in IEEE International Conference of Acoustics,Speech and Signal Processing (ICASSP), 2016, pp. 5755–5759.
- IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION. Shaofei Xue, Zhijie Yan, Alibaba Inc, China