論文:
CLDNN: CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS,Google
思想: CNN、LSTM和DNN進行整合,發揮各個部分的建模能力;
1)CNN:學習頻域不變形能力;
2)LSTM:時序建模能力;
3)DNN:將特征轉化到易於分離的空間,即類別區分能力;
模型:
- 輸入: [xt−l, . . . , xt+r],對每一幀xt,采用l+cur+r的窗形式作為當前幀輸入,xt采用40維logfbank
- CNNs:頻域建模;2層conv;
- 第一層conv采用9*9大小kernel size對頻域*時域進行卷積;輸出通道256
- max pooling,pooling時不重疊,pooling size=3;
- 第二層conv采用4*3大小kernel size;輸出通道256
- linear layer:輸出維度256,CNNs輸出維度進行展平操作(freq*time*channels)維度較大,利用該層進行降維,節約計算且不損失精度
- LSTMs:時序建模;2層LSTMP;
- LSTM結點數均為832,映射層維度512
- 為保證實時性,LSTM延遲為5frames
- DNN:2層左右;輸出維度1024
- CE准則作為目標函數

細節:
- 數據集:2000小時clean和2000小時noise(data augmentation);20小時clean text和20小時noise test
- 40維log fbank
- ASGD優化准則
- CNN、RNN初始化策略Glorot-Bengio;LSTM高斯隨機初始化一個較小值
- 短時和長時特征混合輸入到LSTM,xt跨越CNNs與CNNs輸出連接輸入到LSTMs,上圖(1)
- CNNs輸出跨越LSTMs輸入到DNNs,上圖(2)
實驗結果:
- CLDNN在大數據集上取得了clean 13.1% noise 17.4結果
- 相比於純LSTMs結構效果提升了4~6%
- xt bypass輸入到LSTM,帶來額外的1%提升
- CNNs輸出跨越LSTMs輸入到DNNs,無提升
- 序列級訓練相比於CE,帶來1%提升
reference: