原文:【笔记】DLHLP - 李宏毅 - 4 - 语音识别 - Part 3 CTC, RNN-T and more

Connectionist Temporal Classification CTC CTC可以用于线上实时地语音识别,编码器用的是单向的RNN,解码是用MLP来预测文字分布。 编码器将语音输入 x i 编码成 h i ,MLP再对它乘上一个权重,接上Softmax,得到词表V大小的概率分布。 但有时候当前的语音输入可能并不能对应实际的文本token,所以预测要额外多一个为空的类别,表示模型不知道要 ...

2020-07-08 15:28 0 656 推荐指数:

查看详情

笔记DLHLP - - 3 - 语音识别 - Part 2 LAS

语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的。 seq2seq的模型主要有LAS,CTCRNN-T,Neural Transducer,MoChA。 本节讲最流行的LAS,就是Listen,Atten,and Spell,典型 ...

Tue Jul 07 04:14:00 CST 2020 0 694
语音识别:从 WaveNet 到 Tacotron,再到 RNN-T

从 WaveNet 到 Tacotron,再到 RNN-T 谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类 雷锋网 AI 科技评论按:从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿。近日,他们又将多人语音识别和说话人分类问题 ...

Wed Aug 28 21:18:00 CST 2019 0 527
笔记DLHLP - - 1 - Introduction - 人类语言处理介绍

课程名称:深度学习与人类语言处理(Deep Learning for Human Language Processing) (自然语言包括文本和语音两种形式,不过自然语言处理大多时候指的是文本处理,所以这门课的名字叫人类语言处理以便区分,因为这门课语音和文本的内容是1:1的) 人类语言处理 ...

Mon Jul 06 19:10:00 CST 2020 0 756
基于RNNCTC语音识别模型,探索语境偏移解决之道

摘要:在本文介绍的工作中,我们展示了一个基于RNNCTC语音识别模型,在这个模型中,基于WFST的解码能够有效地融合词典和语言模型. 本文分享自华为云社区《语境偏移如何解决?专有领域端到端ASR之路(三)》,原文作者:xiaoye0829 。 这篇文章我们介绍一个结合CTC与WFST ...

Tue Jul 20 18:02:00 CST 2021 0 202
GRU-CTC中文语音识别

目录 基于keras的中文语音识别 音频文件特征提取 文本数据处理 数据格式处理 构建模型 模型训练及解码 aishell数据转化 该项目github地址 基于keras的中文语音识别 该项目实现了GRU-CTC中文语音识别 ...

Fri Aug 24 07:19:00 CST 2018 0 2764
构建CTC语音识别解码网络

  本文介绍 kaldi-ctc 构建 CTC[1, 2, 3, 4] 语音识别加权有限状态机(WFST)解码网络的方式。   示例相关资源 lifeiteng/codingmath/CTC-decoding-graph   构建语言模型   以 单句 “how are you ...

Sat Mar 04 06:22:00 CST 2017 0 3433
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM