论文: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS 思想: 论文作者借助RNN-T的整体架构,利用 ...
论文: TRANSFORMER TRANSDUCER:END TO END SPEECH RECOGNITION WITH SELF ATTENTION 思想: 借助RNN T在语音识别上的优势,通过tranformer替换RNN T中的RNN结构,实现并行化运算,加快训练过程 encoder部分前段引入包含因果卷积的VGGNet,一方面缩短声学特征的时序长度,节约计算,另一方面融合上下文信息 ...
2020-09-16 22:58 0 1449 推荐指数:
论文: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS 思想: 论文作者借助RNN-T的整体架构,利用 ...
注:本文为一次课程展示所用幻灯片与报告存档。 目录 背景 方法综述 RNN-Transducer 发展背景 模型结构 算法实现 后记 背景 语音识别是一项可以使人与人、人与机器更加顺畅地交流的技术。近年 ...
论文: Deep-FSMN for Large Vocabulary Continuous Speech Recognition 思想: 对于大词汇量语音识别,往往需要更深的网络结构,但是当FSMN[1]或cFSMN[2]的结构很深时容易引发剃度消失和爆炸问题 ...
论文: SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODELFOR SPEECH RECOGNITION 思路: 1)整体采用seq2seq的encoder和decoder架构 ...
LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分为encoder和dec ...
论文: EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING ...
论文: CTC:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks 思想: 语音识别中,一般包含语音 ...
的时序长度,在大规模语音数据训练时提升计算效率; 2)decoder输入采样策略,如果训练时 ...