原文:DeepSpeech2

DeepSpeech 中主要讲的几点 网络结构 convolution layers gt rnn layers gt one fully connected layer 网络结构的输入是音频信号的频谱特征, 输出的是字母表中的一个个字母. 不同语言的字母表不一样 . 训练是采用CTC损失函数. 在推理过程中,输入音频信号x,输出y是通过最大化下面的公式得到的: Q y log P rnn y x ...

2018-08-26 10:05 0 3105 推荐指数:

查看详情

语音识别: DeepSpeech2

https://github.com/PaddlePaddle/DeepSpeech/blob/develop/README_cn.md http://proceedings.mlr.press/v48/amodei16.pdf ...

Thu Feb 18 00:41:00 CST 2021 0 524
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM