kaldi學習 - 一腳本流學習工具使用

本文轉載自查看原文 2018-08-04 10:59 968 kaldi/ 語音識別

yesno訓練
- 先給出整體腳本如下：
- 分塊詳解
建立解碼腳本

kaldi中腳本東西比較多，一層嵌一層，不易閱讀。
本文以yesno為例，直接使用kaldi編譯的工具，書寫簡易訓練步驟，方便學習kaldi工具的使用。
注意：轉載請注明出處。

yesno訓練

准備數據
- 在yesno/s5下新建文件夾：mkdir easy，后續的操作將在easy文件夾中執行。
- 拷貝s5下./path到easy文件夾中，./path的作用是能直接調用工具，不用添加工具所在路徑，類似於設置環境變量。
- 本腳主要便於理解kaldi工具的使用，一些批處理和數據下載並沒有做，需要運行一遍yesno/s5/./run.sh生成訓練所需輸入。
- 到s5/data/train下拷貝wav.scp到easy目錄下作為訓練輸入，因為wav.scp是相對路徑也需要拷貝waves_yesno/到easy下。
- 拷貝詞典到目錄下：拷貝s5/input到easy目錄下。
  准備數據結束，可以寫自己的腳本了。

先給出整體腳本如下：

#!/bin/bash
. ./path
# feature extraction:
# a series of light command	[ compute-mfcc + copy-feats -> compute-cmvn-stats -> apply-cmvn -> add-deltas ] 
# the data flow transition	[ wav -> mfcc.ark,scp -> cmvn.ark,scp -> delta.ark ]
mkdir mfcc
compute-mfcc-feats --verbose=2 --config="../conf/mfcc.conf" scp,p:wav.scp ark:- | copy-feats --compress=true ark:- ark,scp:mfcc/mfcc.ark,mfcc/mfcc.scp
compute-cmvn-stats scp:mfcc/mfcc.scp ark:mfcc/cmvn.ark
apply-cmvn ark:mfcc/cmvn.ark scp:mfcc/mfcc.scp ark:- | add-deltas ark:- ark:mfcc/delta.ark


# prepare dict for lang:
# input data 	[ lexicon_nosil.txt  lexicon.txt  phones.txt ]
# output data 	[ lexicon.txt  lexicon_words.txt  nonsilence_phones.txt  optional_silence.txt  silence_phones.txt ]
mkdir -p lang/dict
cp input/lexicon_nosil.txt lang/dict/lexicon_words.txt
cp input/lexicon.txt lang/dict/lexicon.txt
cat input/phones.txt | grep -v SIL > lang/dict/nonsilence_phones.txt
echo "SIL" > lang/dict/silence_phones.txt
echo "SIL" > lang/dict/optional_silence.txt
echo "Dictionary preparation succeeded"


# generate [ topo ] for acoustic model
utils/gen_topo.pl 3 5 2:3 1 > lang/lang/topo
# from [lexicoin phone word] -> [L.fst word.txt] for [G.fst train.fst HCLG.fst]
utils/prepare_lang.sh --position-dependent-phones false lang/dict "<SIL>" lang/local lang/lang


# train monophic acoustic model
# 1.from [topo 39] -> 0.mdl tree
gmm-init-mono --train-feats=ark:mfcc/delta.ark lang/lang/topo 39 mono/0.mdl mono/tree
# 2.from [L.fst 0.mdl tree word.txt text] -> train.fst
# compile-train-graphs [options] <tree-in> <model-in> <lexicon-fst-in> <transcriptions-rspecifier> <graphs-wspecifier>
compile-train-graphs mono/tree mono/0.mdl lang/lang/L.fst 'ark:sym2int.pl -f 2- lang/lang/words.txt text|' ark:lang/lang/graphs.fsts
# 3.from [graphs.fst] equally align the train data -> [ euqal.ali ]
# align-equal-compiled <graphs-rspecifier> <features-rspecifier> <alignments-wspecifier>
align-equal-compiled ark:lang/lang/graphs.fsts ark:mfcc/delta.ark ark:mono/equal.ali
# 4.from [equal.ali delta.ark mdl] ->  [ 0.acc ]
gmm-acc-stats-ali mono/0.mdl ark:mfcc/delta.ark ark:mono/equal.ali mono/0.acc
# 5.from [0.mdl 0.acc] -> [ 1.mdl ] 
# parameter est: 
gmm-est mono/0.mdl mono/0.acc mono/1.mdl

x=1
numliter=40
numgauss=11
while [ $x -lt $numliter ]; do
	# 6.from [1.mdl graphs.fst] align the data by new model -> [ 1.ali ]
	gmm-align-compiled --beam=6 --retry-beam=20 mono/$x.mdl ark:lang/lang/graphs.fsts ark:mfcc/delta.ark ark:mono/$x.ali
	# 4.from [equal.ali delta.ark mdl] ->  [ 0.acc ]
	gmm-acc-stats-ali mono/$x.mdl ark:mfcc/delta.ark ark:mono/equal.ali mono/$x.acc
	# 5.from [x.mdl x.acc] -> [ x+1.mdl ] 
	gmm-est --mix-up=$numgauss --power=0.25 mono/$x.mdl mono/$x.acc mono/$[$x+1].mdl
	numgauss=$[$numgauss+25]
	x=$[$x+1]
done
cp mono/$x.mdl mono/final.mdl


# Graph compilation  
# from [input/task.arpabo word.txt] -> G.fst
arpa2fst --disambig-symbol=#0 --read-symbol-table=lang/lang/words.txt input/task.arpabo lang/lang/G.fst
fstisstochastic lang/lang/G.fst

# from [final.mdl G.fst L.fst tree] -> HLCG.fst
utils/mkgraph.sh lang/lang mono mono/graph

分塊詳解

首先進行特征提取：

#!/bin/bash
. ./path
# 特征提取:	compute-mfcc-feats, copy-feats
# 輸入為：wav.scp 		輸出為:mfcc.ark,mfcc.scp
compute-mfcc-feats --verbose=2 --config="../conf/mfcc.conf" scp,p:wav.scp ark:- | copy-feats --compress=true ark:- ark,scp:mfcc/mfcc.ark,mfcc/mfcc.scp
# 計算均方歸一化矩陣：
# 輸入為：mfcc.ark,mfcc.scp		輸出為：mfcc/cmvn.ark,mfcc/cmvn.scp
compute-cmvn-stats scp:mfcc/mfcc.scp ark,scp:mfcc/cmvn.ark,mfcc/cmvn.scp
# 計算一階二階差分：
# 輸入為：mfcc/cmvn.ark,mfcc/cmvn.scp 	輸出為：delta.ark
apply-cmvn scp:mfcc/cmvn.scp scp:mfcc/mfcc.scp ark:- | add-deltas ark:- ark:mfcc/delta.ark

然后，准備訓練所需的詞典，音素文件，詞文件等。

yesno里准備好了，直接拷貝即可。

# prepare dict for lang:
# input data 	[ lexicon_nosil.txt  lexicon.txt  phones.txt ]
# output data 	[ lexicon.txt  lexicon_words.txt  nonsilence_phones.txt  optional_silence.txt  silence_phones.txt ]
mkdir -p lang/dict
cp input/lexicon_nosil.txt lang/dict/lexicon_words.txt
cp input/lexicon.txt lang/dict/lexicon.txt
cat input/phones.txt | grep -v SIL > lang/dict/nonsilence_phones.txt
echo "SIL" > lang/dict/silence_phones.txt
echo "SIL" > lang/dict/optional_silence.txt
echo "Dictionary preparation succeeded"

生成聲學拓撲結構。

生成 L.fst word.txt用來生成G.fst train.fst HCLG.fst。其中utils/prepare_lang.sh所需全部輸入為上一步生成的dict文件。

# generate [ topo ] for acoustic model
utils/gen_topo.pl 3 5 2:3 1 > lang/lang/topo
# from [lexicoin phone word] -> [L.fst word.txt] for [G.fst train.fst HCLG.fst]
utils/prepare_lang.sh --position-dependent-phones false lang/dict "<SIL>" lang/local lang/lang

訓練單音素模型

流程如下：
- 利用生成的聲學拓撲初始化模型
- 生成訓練圖
- 初始化對齊
- 生成統計量
- 模型參數估計
- {重新對齊生，成統計量，模型參數估計}x10
- 生成並導出最終模型：

# train monophic acoustic model
# 1.from [topo 39] -> 0.mdl tree
gmm-init-mono --train-feats=ark:mfcc/delta.ark lang/lang/topo 39 mono/0.mdl mono/tree
# 2.from [L.fst 0.mdl tree word.txt text] -> train.fst
# compile-train-graphs [options] <tree-in> <model-in> <lexicon-fst-in> <transcriptions-rspecifier> <graphs-wspecifier>
compile-train-graphs mono/tree mono/0.mdl lang/lang/L.fst 'ark:sym2int.pl -f 2- lang/lang/words.txt text|' ark:lang/lang/graphs.fsts
# 3.from [graphs.fst] equally align the train data -> [ euqal.ali ]
# align-equal-compiled <graphs-rspecifier> <features-rspecifier> <alignments-wspecifier>
align-equal-compiled ark:lang/lang/graphs.fsts ark:mfcc/delta.ark ark:mono/equal.ali
# 4.from [equal.ali delta.ark mdl] ->  [ 0.acc ]
gmm-acc-stats-ali mono/0.mdl ark:mfcc/delta.ark ark:mono/equal.ali mono/0.acc
# 5.from [0.mdl 0.acc] -> [ 1.mdl ] 
# parameter est: 
gmm-est mono/0.mdl mono/0.acc mono/1.mdl

x=1
numliter=40
numgauss=11
while [ $x -lt $numliter ]; do
	# 6.from [1.mdl graphs.fst] align the data by new model -> [ 1.ali ]
	gmm-align-compiled --beam=6 --retry-beam=20 mono/$x.mdl ark:lang/lang/graphs.fsts ark:mfcc/delta.ark ark:mono/$x.ali
	# 4.from [equal.ali delta.ark mdl] ->  [ 0.acc ]
	gmm-acc-stats-ali mono/$x.mdl ark:mfcc/delta.ark ark:mono/equal.ali mono/$x.acc
	# 5.from [x.mdl x.acc] -> [ x+1.mdl ] 
	gmm-est --mix-up=$numgauss --power=0.25 mono/$x.mdl mono/$x.acc mono/$[$x+1].mdl
	numgauss=$[$numgauss+25]
	x=$[$x+1]
done
cp mono/$x.mdl mono/final.mdl

最后合成語言模型：

# Graph compilation  
# from [input/task.arpabo word.txt] -> G.fst
arpa2fst --disambig-symbol=#0 --read-symbol-table=lang/lang/words.txt input/task.arpabo lang/lang/G.fst
fstisstochastic lang/lang/G.fst

# from [final.mdl G.fst L.fst tree] -> HLCG.fst
utils/mkgraph.sh lang/lang mono mono/graph

運行結果：

建立解碼腳本

解碼指令較簡單一個指令即可：

#Usage: gmm-latgen-faster [options] model-in (fst-in|fsts-rspecifier) features-rspecifier lattice-wspecifier [ words-wspecifier [alignments-wspecifier] ]
gmm-latgen-faster --max-active=7000 --beam=13 --lattice-beam=6 --acoustic-scale=0.083333 \
--allow-partial=true --word-symbol-table=lang/lang/words.txt mono/final.mdl \
mono/graph/HCLG.fst ark:mfcc/delta.ark "ark:|gzip -c > result/lat.gz"

可以得到識別結果不是很好，沒關系，主要用這個例子來理解kaldi是怎么樣使用工具的。
這里寫圖片描述

轉載請注明出處：https://blog.csdn.net/chinatelecom08/article/details/81392399

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 zabbix統一腳本監控方式同一腳本sh 腳本名報Syntax error: "(" unexpected而./腳本名不報錯，求解！！音頻工具kaldi部署及模型制作調研學習一腳邁進大廠，聊幾點大家關心的 kaldi學習 - egs/yesno —— 數據准備（二）學習使用Guava（基本工具） Max2013腳本工具的亂碼問題 kaldi實例腳本運行 kaldi腳本注釋二 kaldi腳本注釋一