阿里巴巴 2018 年開源的語音識別模型 DFSMN,將全球語音識別准確率紀錄提高至 96.04%。DFSMN 模型,是阿里巴巴的高效工業級實現,相對於傳統的 LSTM、BLSTM 等聲學模型,該模型具備訓練速度更快、識別更高效、識別准確率更高和模型大小壓縮等效果。
本場 Chat 的主要內容包括:
- 語音識別流程簡介;
- Kaldi 的部署使用;
- 如何訓練基於中文的 DFSMN 聲學模型;
- 語音特征提取 MFCC 算法源碼解讀;
- 語音識別工具對比。
https://gitbook.cn/gitchat/activity/5bcc8f9b0920511ab0ff412b