語音識別: DeepSpeech2
https://github.com/PaddlePaddle/DeepSpeech/blob/develop/README_cn.md http://proceedings.mlr.press/v48/amodei16.pdf ...
DeepSpeech 中主要講的幾點 網絡結構 convolution layers gt rnn layers gt one fully connected layer 網絡結構的輸入是音頻信號的頻譜特征, 輸出的是字母表中的一個個字母. 不同語言的字母表不一樣 . 訓練是采用CTC損失函數. 在推理過程中,輸入音頻信號x,輸出y是通過最大化下面的公式得到的: Q y log P rnn y x ...
2018-08-26 10:05 0 3105 推薦指數:
https://github.com/PaddlePaddle/DeepSpeech/blob/develop/README_cn.md http://proceedings.mlr.press/v48/amodei16.pdf ...
參考博文:https://blog.csdn.net/Left_Think/article/details/75577512 和 https://zhuanlan.zhihu.com/p/38516 ...