1. 语音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.离线语音识别 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...
注:本文为一次课程展示所用幻灯片与报告存档。 目录 背景 方法综述 RNN Transducer 发展背景 模型结构 算法实现 后记 背景 语音识别是一项可以使人与人 人与机器更加顺畅地交流的技术。近年来,语音识别相关的若干技术场景以及逐渐地改变了我们的工作和生活方式,如语音输入法 语音消息 转文本 语音到语音翻译系统 检索语音信息等。同时,语音识别也能够极大地提升人机交流地能力,包括语音搜索 个 ...
2021-10-19 10:55 0 256 推荐指数:
1. 语音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.离线语音识别 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...
后验概率最大,即为判别结果 HTK Hvite解码器 Sphinx解码器 TODE解码器,生硬,修改繁琐。 WFST 扩充,简单高效。 有限状态机模型被用于大词汇量连续中文语音识别系统中。 其操作思路是将传统语音识别系统中的数学模型,分别转换成有限状态机模型,再将转换后的模型 ...
论文: TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想: 1)借助RNN-T在语音识别上的优势,通过tranformer替换RNN-T中的RNN结构,实现 ...
论文: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS 思想: 论文作者借助RNN-T的整体架构,利用 ...
: 思想: CTC对于当前时刻的输出只与当前时刻输入有关p(k|t),而RNN-T引 ...
论文: EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018 CTC的一个问题在于,其假设当前帧的输出与历史输出之间的条件 ...
从 WaveNet 到 Tacotron,再到 RNN-T 谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类 雷锋网 AI 科技评论按:从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿。近日,他们又将多人语音识别和说话人分类问题 ...
近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D", "G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱 ...