語音識別算法閱讀之LC-BLSTM優化版


論文:
  IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION
思想:
  BLSTM作為當前主流的序列建模算法,在語音識別領域取得了不錯的效果。但因為BLSTM的雙向LSTM結構,在序列建模時需要用到未來的時序信息,這使得算法在流式語音識別中受到制約,不滿足流式語音識別對輸出延遲的要求;而LCBLSTM結構將序列數據分割成指定長度的chunk進行訓練,並通過有限長度的未來信息進行反向LSTM memory cell state的初始化,極大的加速了訓練和解碼過程;本文在LC-BLSTM基礎上,提出了兩種優化版本的結構LC-BLSTM-FABDI、LC-BLSTM-FABSR,這兩種結構對BLSTM的反向初始化結構分別用前饋網絡和SRNN網絡進行替換,在精度幾乎不損失的情況下,解碼速度能夠提升24%~61%
模型:
  LCBLSTM的主要框架包含BLSTM層和前饋層;BLSTM層對序列數據的長時依賴性具有較好的建模能力;前饋層能夠將特征轉化到易於分離的空間;此外,對於反向LSTM memory cell state初始化部分論文還提出了兩種建模方法,一種是前饋型結構,另外一種是SRNN結構,兩種結構相比於LSTM進行建模,能夠帶來額外的訓練和解碼加速
  • 序列數據chunk化:為了適應流式語音識別延遲需要,LCBLSTM將輸入序列數據進行切分成多個連續非重疊的chunk,每個chunk的長度為Nc,LCBLSTM的訓練以chunk為一個輸入序列;對於BLSTM的反向memory cell state,通過當前chunk的未來有限長度為Nr的chunk進行計算;顯然,這種思路相比於利用未來所有的時序信息,有助於降低輸出延遲
  • LSTM:LSTM結構對長時依賴具有較好的建模能力,其主要通過門控單元控制信息的流入和流出;LSTM包括輸入門i、遺忘門f和輸出門o三種門控結構
 
  • LC-BLSTM-FABDI:LC-BLSTM-FABDI利用前饋網絡結構來進行BLSTM反向memory cell state的初始化,相比於傳統的LSTM結構,支持並行化計算;FABDI結構中包含三個全連接FC,FC1激活為sigmoid,FC2和FC3激活為ReLU,其中Nr中所有幀的sigmoid激活輸出取平均作為第Nc幀的反向memory cell state的初始化;而對應ReLU激活的輸出作為下一層FABDI層的輸入,以便為下一層LSTM反向memory cell state提供初始化,以及與LSTM結構進行聯合訓練
  • LC-BLSTM-FABSR:FABSR結構的作用與FABDI一致,但是FABSR的建模結構采用的是SRNN結構[1],該結構相對於LSTM,結構簡單,參數量少,能夠有效節省計算;
SRNN的結構如下:
訓練:
  • 聲學數據集:Switchboard 320小時(309小時Switchboard-I+20小時call home);測試集:NIST 2000 Hub5e set(1831 utts);
  • 語言模型數據集:14M文本數據(11M Fisher English Part 1+3M聲學數據集對應標簽)
  • 輸入特征:108維fbank(靜態、一二階差分)
  • 輸入序列切分成固定長度的chunk,長度為Nc=80,未來的信息長度Nr=30
  • 狀態對齊模型GMM-HMMs:輸入特征39維mfccs(靜態、一二階差分);輸出單元:8882;訓練准側:MLE(最大似然估計)
  • 網絡結構:3*BLSTM(500+500)+2*ReLU DNN(2048)+softmax
  • 初始化:均勻分布初始化模型參數(-0.01~0.01)
  • 訓練參數:學習率:0.00005; momentum:0.9; 優化算法:異步隨機梯度下降法ASGD(4 GPUs)
  • 語言模型:4-gram
實驗結果:
  • Nc和Nr的長度變化會對識別結果造成一定影響,長度越長,效果越好;但是,選取合適長度的Nc和Nr,實際對精度的影響比較輕微,卻可以顯著提升解碼速度
  • 論文提出的兩種LSTM反向memory cell state初始化結構FABDI和FABSR,相對於原始的LC-BLSTM,識別精度幾乎不損失的情況下,能夠帶來24%~61%的解碼速度提升;
結論:
  本文在LC-BLSTM結構的基礎上,對LSTM反向memory cell state初始化結構進行了改進,提出了兩種建模的方法,一種是前饋網絡FABDI,另外一種是簡單RNN結構FABSR,這兩種結構通過實驗證明,都能夠在精度幾乎不損失的情況下,帶來一定的解碼速度提升
Reference:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM