語音識別模型閱讀之CLDNN


論文:
  CLDNN: CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS,Google
思想: CNN、LSTM和DNN進行整合,發揮各個部分的建模能力;
  1)CNN:學習頻域不變形能力;
  2)LSTM:時序建模能力;
  3)DNN:將特征轉化到易於分離的空間,即類別區分能力;
模型:
  • 輸入: [xt−l, . . . , xt+r],對每一幀xt,采用l+cur+r的窗形式作為當前幀輸入,xt采用40維logfbank
  • CNNs:頻域建模;2層conv;
  1. 第一層conv采用9*9大小kernel size對頻域*時域進行卷積;輸出通道256
  2. max pooling,pooling時不重疊,pooling size=3;
  3. 第二層conv采用4*3大小kernel size;輸出通道256
  • linear layer:輸出維度256,CNNs輸出維度進行展平操作(freq*time*channels)維度較大,利用該層進行降維,節約計算且不損失精度
  • LSTMs:時序建模;2層LSTMP;
  1. LSTM結點數均為832,映射層維度512
  2. 為保證實時性,LSTM延遲為5frames
  • DNN:2層左右;輸出維度1024
  • CE准則作為目標函數
細節:
  • 數據集:2000小時clean和2000小時noise(data augmentation);20小時clean text和20小時noise test
  • 40維log fbank
  • ASGD優化准則
  • CNN、RNN初始化策略Glorot-Bengio;LSTM高斯隨機初始化一個較小值
  • 短時和長時特征混合輸入到LSTM,xt跨越CNNs與CNNs輸出連接輸入到LSTMs,上圖(1)
  • CNNs輸出跨越LSTMs輸入到DNNs,上圖(2)
實驗結果:
  • CLDNN在大數據集上取得了clean 13.1% noise 17.4結果
  • 相比於純LSTMs結構效果提升了4~6%
  • xt bypass輸入到LSTM,帶來額外的1%提升
  • CNNs輸出跨越LSTMs輸入到DNNs,無提升
  • 序列級訓練相比於CE,帶來1%提升
reference:
 



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM