
- 隱藏層:全連接結構,激活函數ReLU
- 線性映射層:低秩的線性映射矩陣,相當於無激活的全連接
- 序列記憶模塊:包含三部分,一部分來源於上一層序列記憶模塊的輸出;第二部分來源於線性映射層的輸出;第三部分即本層的FSMN結構,對歷史和未來的時序信息進行建模,整合成固定維度的編碼;三部分相加之后經過線性映射輸入到下一層隱藏層




- 數據集:
- 英文:Switchboard (SWB) and Fisher (FSH) 2000h;測試集:Hub5e00 1831utts;采樣率8k;輸入特征72維fbank(24fbank+1階差分+2階差分)
- 中文:20000h,采樣率16k,輸入特征80維log fbank
- 英文基線系統:
- 輸入特征:72fbank
- DNN-HMM
輸入特征的上下文窗(7+1+7)
6*hidden layer(2048,ReLU)
- BLSTM-HMM
3*BLSTMP(1024forward,1024backward,512線性映射)
- cFSMN
3*72-4×[2048-512(20,20)]-3×2048-512-9004;4層cFSMN(2048全連接(ReLU)+512線性映射+歷史和未來時間片長度20),3層全連接(2048,ReLU),1層線性映射層,輸出單元9004
- DFSMN
3*72-Nf×[2048-512(N1;N2;s1;s2)]-Nd×2048-512-9004;Nf和Nd分別表示cFSMN和全連接層數,N1,N2,s1,s2分別代表歷史時間片個數、未來時間片個數、歷史跨幀步長、未來跨幀步長;其中N1=N2=20,Nd=3固定
- 訓練策略:學習率0.00001,momentum0.9;DNN,DFSMN mini-batch 4096;BLSTM mini-batch 16
- 中文基線系統(5000h)
- 輸入特征:80維fbank
- 低幀率:30ms/幀
- LFR-CD-LCBLSTM-HMM
3*BLSTM(500forward+500backward)+2全連接(2048,ReLU)+softmax
建模單元:CD-state
Nc= 80、Nr= 40
輸入特征的上下文窗(0+1+0)
建模單元:CD-phone
Nc= 27、Nr= 13
輸入特征的上下文窗(8+1+8)
- LFR-cFSMN:
3*80-Nf×[2048-512(20,20)]-2×2048-512;Nf=6或8或10
建模單元:CD-state
輸入特征的上下文窗(1+1+1)
建模單元:CD-phone
輸入特征的上下文窗(5+1+5)
- LFR-DFSMN:
11∗80-Nf×[2048-512(N1;N2;s1;s2)]-Nd×2048-512-9841;N1= 10,N2=5,s1= 2,s2= 2,Nd= 2;Nf=8或10
- 建模單元:上下文狀態(14359)/上下文音素(9841)
- 中文基線系統(20000h)
- LFR-DFSMN
11*80−10×[2048−512(5;N2; 2; 1)]-2×2048-512-9841;
- LFR-LCBLSTM
Nc= 27、Nr= 13
3*BLSTM(500forward+500backward)+2全連接(2048,ReLU)+softmax
- DFSMN結構能夠較好的利用深度結構,當網絡層數增加時,模型的識別效果能夠進一步提升;此外,當模型深度達到一定程度時(cFSMN=8),繼續增加模型深度,效果提升不明顯,但並沒有出現下降的情況,也間接證明了skip-connection能夠在深度結構中緩解剃度消失和爆炸問題

- 在Switchboard英文數據集上,模型參數類似情況下,DFSMN取得了最好的識別結果

- 在5000小時低幀率(30ms/幀)中文識別任務中,當DFSMN采樣上下文音素作為建模單元時取得了最好的識別結果,相比於以上下文狀態作為建模單元的基線系統LCBLSTM帶來了20%的效果提升;另外,從實驗結果看,以上下文音素作為建模單元要優於上下文狀態

- 在模型訓練速度方面,LFR-DFSMN相比於LRF-LCBLSTM可以實現3倍以上的訓練加速;同時擁有更好的識別結果

- 對於LFR-DFSMN,減少序列記憶模塊中未來時間片的個數和跨幀步長,能夠降低輸出延遲時間,當輸出延遲降低時會造成字錯率的輕微上升;當輸出延遲為5幀(5*30=150ms)時,相比於LRF-LCBLSTM依然擁有16.64%的絕對識別效果提升;以上表明,LFR-DFSMN系統能夠在較低延遲的情況下,取得了較好的識別結果,能夠較好的滿足流式語音識別的要求

總結: