HTK語音識別示例(Ubuntu)


一、簡介

HTK(Hidden Markov Model Toolkit)是一款語音識別工具包,誕生於Cambridge University Engineering Department (CUED),后來幾經易手,目前的HTK3由CUED和Microsoft維護。現在Microsoft對HTK依舊保留一定的版權,但是源碼可以免費獲得,用於教學和科研是沒有問題的。

這里是我使用的源碼與教程的當時版本HTK-3.4.1:

源碼:http://pan.baidu.com/s/1gf9qAD9

教程htkbook:https://pan.baidu.com/s/1R-J67qAkG5u3XzoUQeqn2A

其他高手中文版教程(針對windows):http://pan.baidu.com/s/1jHsiPpW

 

最新源碼與文檔可以查詢官網:

http://htk.eng.cam.ac.uk/

 

以下是我在范例中使用到的音頻和相關腳本文件等資料:

字典文件:http://pan.baidu.com/s/1mgJZPFE

相關腳本:http://pan.baidu.com/s/1i3Hyfv3

訓練音頻:http://pan.baidu.com/s/1dDEOxtJ

測試音頻:http://pan.baidu.com/s/1jGuvyPS

鑒於HTK Book里給的sample一點而都不simple,作為初學者,各種麻煩還是很折騰人的。

這里,我“篡改”了HTM Book示例的部分流程,以求簡單。

 

二、流程概覽:

整個流程就如同下圖一樣,首先我們錄制語音,然后HMM模塊處理語音文件,之后便被識別出相應的文本文件。

那么,htk扮演的角色是什么呢?如下圖,htk的作用就是訓練出HMM模塊。

為什么說是“訓練”呢?簡單的說,就是因為各個人的口音不同,所以,如果要“訓練”HMM模塊來適應不同的口音。

 

 

以下,我將訓練出這樣的HMM模塊:識別“RED”, “YELLOW”, “BLUE”三個單詞,步驟為

(一)准備訓練語音文件;

(二)雜項准備;

(三)訓練HMM模塊;

(四)看看成果。

 最后成果

在此,還感謝前輩的探索,幫了我幫了我不少:

http://blog.csdn.net/wbgxx333/article/details/17639373


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM