一、簡介
HTK(Hidden Markov Model Toolkit)是一款語音識別工具包,誕生於Cambridge University Engineering Department (CUED),后來幾經易手,目前的HTK3由CUED和Microsoft維護。現在Microsoft對HTK依舊保留一定的版權,但是源碼可以免費獲得,用於教學和科研是沒有問題的。
這里是我使用的源碼與教程的當時版本HTK-3.4.1:
源碼:http://pan.baidu.com/s/1gf9qAD9
教程htkbook:https://pan.baidu.com/s/1R-J67qAkG5u3XzoUQeqn2A
其他高手中文版教程(針對windows):http://pan.baidu.com/s/1jHsiPpW
最新源碼與文檔可以查詢官網:
http://htk.eng.cam.ac.uk/
以下是我在范例中使用到的音頻和相關腳本文件等資料:
字典文件:http://pan.baidu.com/s/1mgJZPFE
相關腳本:http://pan.baidu.com/s/1i3Hyfv3
訓練音頻:http://pan.baidu.com/s/1dDEOxtJ
測試音頻:http://pan.baidu.com/s/1jGuvyPS
鑒於HTK Book里給的sample一點而都不simple,作為初學者,各種麻煩還是很折騰人的。
這里,我“篡改”了HTM Book示例的部分流程,以求簡單。
二、流程概覽:
整個流程就如同下圖一樣,首先我們錄制語音,然后HMM模塊處理語音文件,之后便被識別出相應的文本文件。

那么,htk扮演的角色是什么呢?如下圖,htk的作用就是訓練出HMM模塊。
為什么說是“訓練”呢?簡單的說,就是因為各個人的口音不同,所以,如果要“訓練”HMM模塊來適應不同的口音。

以下,我將訓練出這樣的HMM模塊:識別“RED”, “YELLOW”, “BLUE”三個單詞,步驟為
在此,還感謝前輩的探索,幫了我幫了我不少:
http://blog.csdn.net/wbgxx333/article/details/17639373
