语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的。 seq2seq的模型主要有LAS,CTC,RNN-T,Neural Transducer,MoChA。 ...
课程名称:深度学习与人类语言处理 Deep Learning for Human Language Processing 自然语言包括文本和语音两种形式,不过自然语言处理大多时候指的是文本处理,所以这门课的名字叫人类语言处理以便区分,因为这门课语音和文本的内容是 : 的 人类语言处理的终极目标:让机器能够听懂人说的话,看懂人写的句子,并有能力说出人听得懂的话,写出人看得懂的句子。 世界上只有 的语 ...
2020-07-06 11:10 0 756 推荐指数:
语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的。 seq2seq的模型主要有LAS,CTC,RNN-T,Neural Transducer,MoChA。 ...
Connectionist Temporal Classification (CTC) CTC可以用于线上实时地语音识别,编码器用的是单向的RNN,解码是用MLP来预测文字分布。 编码器将语音输入\ ...
一、Course Introduction 1、机器学习就是自动找函式 Regression: output is a scalar. Classification:yes or no Binary classification:RNN作业 Multi-class ...
本文作为自己学习李宏毅老师2021春机器学习课程所做笔记,记录自己身为入门阶段小白的学习理解,如果错漏、建议,还请各位博友不吝指教,感谢!! 一、Machine Learning概念理解 Machine Learning主要的任务是寻找一个合适的Function来完成我们的工作(非常不严 ...
比较有用的是conditioned generator,能够控制输入的vector来控制对应的文字音像 ...
model里面大量用到了self-attention这种特别的层。 一般讲到处理sequenc ...
问题:越深越好? 层数越多,参数越多,model比较复杂,数据又多的话,本来误差就越小,这为什么归因于”深“呢? 矮胖结构 v.s. 高瘦结构 真正要比较”深“和”浅“的model的时候 ...
一、方法总结 Network Pruning Knowledge Distillation Parameter Quantization Architecture Design ...