上一專題GMM-HMM聲學模型中講述了其理論知識,這一章利用理論搭建一套GMM-HMM系統,來識別連續0123456789的英文語音。 本系統是單音素,未涉及后面三音子的訓練以及決策樹的內容。 在GMM專題和HMM專題中分別講述了其訓練都是EM算法,那么融合形成GMM-HMM模型后會 ...
春節后到現在近兩個月了,沒有更新博客,主要是因為工作的關注點正從傳統語音 語音通信 轉向智能語音 語音識別 。部門起了個新項目,要用到語音識別 准備基於Kaldi來做 。我們之前做的傳統音頻已基本成熟,就開始關注在語音識別上了。對於我們來說,這是個全新的領域 雖然都是語音相關的,但是語音通信偏信號處理,傳統語音識別方法偏概率統計 ,需要學習的知識很多,所以這段時間主要是在學習新知識了,主要學習了數 ...
2019-04-02 19:09 0 1794 推薦指數:
上一專題GMM-HMM聲學模型中講述了其理論知識,這一章利用理論搭建一套GMM-HMM系統,來識別連續0123456789的英文語音。 本系統是單音素,未涉及后面三音子的訓練以及決策樹的內容。 在GMM專題和HMM專題中分別講述了其訓練都是EM算法,那么融合形成GMM-HMM模型后會 ...
本文簡明講述GMM-HMM在語音識別上的原理,建模和測試過程。這篇blog只回答三個問題: 1. 什么是Hidden Markov Model? HMM要解決的三個問題: 1) Likelihood 2) Decoding 3) Training 2. GMM是神馬?怎樣用GMM求某一 ...
這是我4月份在BitTiger公開課聽的王贇大牛《語音識別的前世今生》整理的筆記 ,本來打算整理通暢再發的,結果實在沒時間就一拖再拖。筆記有些草率,不過應該可以看明白,希望可以對有用,也祝王贇大神好 ...
為了對GMM-HMM在語音識別上的應用有個宏觀認識,花了些時間讀了下HTK(用htk完成簡單的孤立詞識別)的部分源碼,對該算法總算有了點大概認識,達到了預期我想要的。不得不說,網絡上關於語音識別的通俗易懂教程太少,都是各種公式滿天飛,很少有說具體細節的,當然了,那需要有實戰經驗才行 ...
1. 語音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.離線語音識別 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...
后驗概率最大,即為判別結果 HTK Hvite解碼器 Sphinx解碼器 TODE解碼器,生硬,修改繁瑣。 WFST 擴充,簡單高效。 有限狀態機模型被用於大詞匯量連續中文語音識別系統中。 其操作思路是將傳統語音識別系統中的數學模型,分別轉換成有限狀態機模型,再將轉換后的模型 ...
一 一些概念理解 熵:代表信息的不確定性。描述一件事情的時候,考慮到所有的不確定性,能將風險降到最低 最大熵:如上,描述一件未知狀態時候,要盡量考慮所有的可能結果,以此估計出的結果風險才最 ...
基於DNN-HMM的語音識別聲學模型結構如下圖所示,與傳統的基於GMM-HMM的聲學模型相比,唯一不同點在於用DNN替換了GMM來對輸入語音信號的觀察概率進行建模。DNN與GMM相比具有如下優點: DNN不需要對聲學特征所服從的分布進行假設; DNN的輸入可以采用連續的拼接幀 ...