原文:语音识别与 RNN-Transducer 概述

注:本文为一次课程展示所用幻灯片与报告存档。 目录 背景 方法综述 RNN Transducer 发展背景 模型结构 算法实现 后记 背景 语音识别是一项可以使人与人 人与机器更加顺畅地交流的技术。近年来,语音识别相关的若干技术场景以及逐渐地改变了我们的工作和生活方式,如语音输入法 语音消息 转文本 语音到语音翻译系统 检索语音信息等。同时,语音识别也能够极大地提升人机交流地能力,包括语音搜索 个 ...

2021-10-19 10:55 0 256 推荐指数:

查看详情

语音识别 -- 概述

1. 语音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.离线语音识别 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...

Fri Nov 20 19:18:00 CST 2020 0 607
语音识别概述

后验概率最大,即为判别结果 HTK Hvite解码器 Sphinx解码器 TODE解码器,生硬,修改繁琐。 WFST 扩充,简单高效。 有限状态机模型被用于大词汇量连续中文语音识别系统中。 其操作思路是将传统语音识别系统中的数学模型,分别转换成有限状态机模型,再将转换后的模型 ...

Thu Sep 07 23:40:00 CST 2017 0 2021
语音识别算法阅读之transformer-transducer(facebook)

论文:   TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想:   1)借助RNN-T在语音识别上的优势,通过tranformer替换RNN-T中的RNN结构,实现 ...

Thu Sep 17 06:58:00 CST 2020 0 1449
语音识别算法阅读之RNN-T-2018

论文:   EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018 CTC的一个问题在于,其假设当前帧的输出与历史输出之间的条件 ...

Wed Sep 16 06:26:00 CST 2020 0 2315
语音识别:从 WaveNet 到 Tacotron,再到 RNN-T

从 WaveNet 到 Tacotron,再到 RNN-T 谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类 雷锋网 AI 科技评论按:从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿。近日,他们又将多人语音识别和说话人分类问题 ...

Wed Aug 28 21:18:00 CST 2019 0 527
语音识别-TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D", "G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱 ...

Mon Jan 14 01:11:00 CST 2019 0 1274
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM