https://github.com/PaddlePaddle/DeepSpeech/blob/develop/README_cn.md http://proceedings.mlr.press/v48/amodei16.pdf ...
DeepSpeech 中主要讲的几点 网络结构 convolution layers gt rnn layers gt one fully connected layer 网络结构的输入是音频信号的频谱特征, 输出的是字母表中的一个个字母. 不同语言的字母表不一样 . 训练是采用CTC损失函数. 在推理过程中,输入音频信号x,输出y是通过最大化下面的公式得到的: Q y log P rnn y x ...
2018-08-26 10:05 0 3105 推荐指数:
https://github.com/PaddlePaddle/DeepSpeech/blob/develop/README_cn.md http://proceedings.mlr.press/v48/amodei16.pdf ...
参考博文:https://blog.csdn.net/Left_Think/article/details/75577512 和 https://zhuanlan.zhihu.com/p/38516 ...