标签【AI大语音（ASR）】

基于GMM的0-9孤立词识别系统以词为训练单位，添加新词汇需要重新进行训练，若要涵盖所以词，差不多6万个词，训练量极大，预测时也要计算6万个模型的似然，哪个大预测出哪个，在实际应 ...

AI大语音（四）——MFCC特征提取

点击上方“AI大道理”，选择“置顶”公众号 —————— 1 特征提取流程在语音识别和话者识别方面，最常用到的语音特 ...

AI大语音（二）——语音预处理

1 预滤波 CODEC（所谓Codec，就是编码-解码器“Coder-Decoder”的缩写。说得通俗一点，对于音频就是A/D和D/A转换。）前端带宽为300-34 ...

上一专题GMM-HMM声学模型中讲述了其理论知识，这一章利用理论搭建一套GMM-HMM系统，来识别连续0123456789的英文语音。本系统是单音素，未涉及后面三音子的训练以及决策树的内容。 ...

扫描下方“AI大道理”，选择“关注”公众号上一专题搭建了一套GMM-HMM系统，来识别连续0123456789的英文语音。但若不是仅针对数字，而是所有普通词汇，可能达到十几万个词，解码过程将非常复 ...

点击上方“AI大道理”，选择“置顶”公众号重磅干货，细致入微AI大道理 —————— 1 GMM基础高斯混合模型（GMM）指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型 ...

点击上方“AI大道理”，选择“置顶”公众号重磅干货，细致入微AI大道理 —————— 1 系统概要孤立词识别：语音中只包含一个单词的英文识别识别对象：0-9以及o的英文语音训练数 ...

1 特征提取流程在语音识别和话者识别方面，最常用到的语音特征就是梅尔倒谱系数（Mel-scaleFrequency Cepstral Coefficients，简 ...

1 语音识别基础 1.1 声音特性声音是由物体振动产生的声波。是通过介质传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。声音以波的形式振动传播。声音是声波通过任何介质传播形 ...

点击上方“AI大道理”，选择“置顶”公众号为了让识别出来的语音符合常规语言表达，引入了语言模型作为约束。为了加速解码识别效率又引入了WFST解码机制。解码本质：解码就是在网络中寻找 ...