上一专题GMM-HMM声学模型中讲述了其理论知识,这一章利用理论搭建一套GMM-HMM系统,来识别连续0123456789的英文语音。 本系统是单音素,未涉及后面三音子的训练以及决策树的内容。 在GMM专题和HMM专题中分别讲述了其训练都是EM算法,那么融合形成GMM-HMM模型后会 ...
春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音 语音通信 转向智能语音 语音识别 。部门起了个新项目,要用到语音识别 准备基于Kaldi来做 。我们之前做的传统音频已基本成熟,就开始关注在语音识别上了。对于我们来说,这是个全新的领域 虽然都是语音相关的,但是语音通信偏信号处理,传统语音识别方法偏概率统计 ,需要学习的知识很多,所以这段时间主要是在学习新知识了,主要学习了数 ...
2019-04-02 19:09 0 1794 推荐指数:
上一专题GMM-HMM声学模型中讲述了其理论知识,这一章利用理论搭建一套GMM-HMM系统,来识别连续0123456789的英文语音。 本系统是单音素,未涉及后面三音子的训练以及决策树的内容。 在GMM专题和HMM专题中分别讲述了其训练都是EM算法,那么融合形成GMM-HMM模型后会 ...
本文简明讲述GMM-HMM在语音识别上的原理,建模和测试过程。这篇blog只回答三个问题: 1. 什么是Hidden Markov Model? HMM要解决的三个问题: 1) Likelihood 2) Decoding 3) Training 2. GMM是神马?怎样用GMM求某一 ...
这是我4月份在BitTiger公开课听的王赟大牛《语音识别的前世今生》整理的笔记 ,本来打算整理通畅再发的,结果实在没时间就一拖再拖。笔记有些草率,不过应该可以看明白,希望可以对有用,也祝王赟大神好 ...
为了对GMM-HMM在语音识别上的应用有个宏观认识,花了些时间读了下HTK(用htk完成简单的孤立词识别)的部分源码,对该算法总算有了点大概认识,达到了预期我想要的。不得不说,网络上关于语音识别的通俗易懂教程太少,都是各种公式满天飞,很少有说具体细节的,当然了,那需要有实战经验才行 ...
1. 语音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.离线语音识别 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...
后验概率最大,即为判别结果 HTK Hvite解码器 Sphinx解码器 TODE解码器,生硬,修改繁琐。 WFST 扩充,简单高效。 有限状态机模型被用于大词汇量连续中文语音识别系统中。 其操作思路是将传统语音识别系统中的数学模型,分别转换成有限状态机模型,再将转换后的模型 ...
一 一些概念理解 熵:代表信息的不确定性。描述一件事情的时候,考虑到所有的不确定性,能将风险降到最低 最大熵:如上,描述一件未知状态时候,要尽量考虑所有的可能结果,以此估计出的结果风险才最 ...
基于DNN-HMM的语音识别声学模型结构如下图所示,与传统的基于GMM-HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN与GMM相比具有如下优点: DNN不需要对声学特征所服从的分布进行假设; DNN的输入可以采用连续的拼接帧 ...