kaldi基於GMM的單音素模型訓練部分

本文轉載自查看原文 2018-08-04 11:04 980 kaldi/ 語音識別

1. gmm-init-mono 模型初始化
2. compile-train-graghs 訓練圖初始化
3. align-equal-compiled 特征文件均勻分割
4. gmm-acc-stats-ali 累積模型重估所需數據
5. gmm-sum-accs 並行數據合並
6. gmm-est 聲音模型參數重估
7. gmm-boost-silence 模型平滑處理
8. gmm-align-compiled 特征重新對齊
9. train_mono.sh 整體流程詳解

轉載注明出處。

1. gmm-init-mono 模型初始化

gmm-init-mono --train-feats=ark:feats.ark topo 39 0.mdl tree
0.mdl 中使用初始化的狀態轉換概率，其中 pdf模型共享參數。
tree中的樹為提出兩個問題，第一個問題為各個音素是什么，第二個問題為狀態為第幾個。

實例：

將特征進行均值方差歸一化后抽取一階差分和二階差分：

/home/speech.AI/kaldi/src/featbin/apply-cmvn scp:cmvn.scp scp:copy-feats.scp ark:- | /home/speech.AI/kaldi/src/featbin/add-deltas ark:- ark:delta.ark

利用提取的39維特征進行進行模型初始化：

gmm-init-mono --train-feats=ark:delta.ark topo 39 0.mdl tree

2. compile-train-graghs 訓練圖初始化

使用compile-train-graghs生成訓練用的FST，是每個句子構造一個FST網絡：

Usage: compile-train-graphs [options] <tree-in> <model-in> <lexicon-fst-in> <transcriptions-rspecifier> <graphs-wspecifier> 
e.g.:  compile-train-graphs tree 1.mdl lex.fst ark:train.tra ark:graphs.fsts

其中的ark:train.tra一般通過ark:sym2int.pl -f 2- words.txt text|利用詞典將文本信息轉化為對應的音素序號。

下面是我的路徑下的測試命令：

/home/speech.AI/kaldi/src/bin/compile-train-graphs 0.tree 0.mdl ../data/lang/L.fst 'ark:/home/speech.AI/kaldi/egs/wsj/s5/utils/sym2int.pl -f 2- words.txt text|' ark:graphs.fsts

3. align-equal-compiled 特征文件均勻分割

使用align-equal-compiled根據我們得到的訓練用的fst對特征文件進行均勻分割。
需要留意，切割的文件中間都摻雜着SIL單詞，但是標注中沒有體現，我還不知道為何，切對齊文件每個狀態的幀數也不相同。

Usage: align-equal-compiled <graphs-rspecifier> <features-rspecifier> <alignments-wspecifier>
e.g.:  align-equal-compiled ark:graphs.fsts ark:delta.ark ark:equal.ali

對文件的每一幀進行均勻標准，具體算法不了解：

[2 1 1 1 1 1 1 1 1 6 5 5 5 5 5 5 5 5 11 10 10 10 10 10 10 10 10 13 15 15 15 15 15 15 15 15 8 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 4 1 1 1 1 1 1 1 1 14 15 15 15 15 15 15 15 15 12 10 10 10 10 10 10 10 10 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 2 1 1 1 1 1 1 1 1 6 5 5 5 5 5 5 5 5 11 10 10 10 10 10 10 10 10 13 15 15 15 15 15 15 15 15 8 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 3 1 1 1 1 1 1 1 1 9 10 10 10 10 10 10 10 10 7 5 5 5 5 5 5 5 5 14 15 15 15 15 15 15 15 15 9 10 10 10 10 10 10 10 10 7 5 5 5 5 5 5 5 5 13 15 15 15 15 15 15 15 15 7 5 5 5 5 5 5 5 5 14 15 15 15 15 15 15 15 15 12 10 10 10 10 10 10 10 10 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 4 1 1 1 1 1 1 1 13 15 15 15 15 15 15 15 15 7 5 5 5 5 5 5 5 16 15 15 15 15 15 15 15 18 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 3 1 1 1 1 1 1 1 11 10 10 10 10 10 10 10 13 15 15 15 15 15 15 15 6 5 5 5 5 5 5 5 11 10 10 10 10 10 10 10 14 15 15 15 15 15 15 15 9 10 10 10 10 10 10 10 8 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 3 1 1 1 1 1 1 1 11 10 10 10 10 10 10 10 16 15 15 15 15 15 15 15 18 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 24 23 23 23 23 23 22 23 2 1 1 1 1 1 1 1 7 5 5 5 5 5 5 5 14 15 15 15 15 15 15 15 12 10 10 10 10 10 10 10 18 17 17 17 17 17 17 17];

均勻分割后的每一幀trans-id的標注，不知道為何每個音素的時間並不相同，也不知道原因。
且每個單詞中間都出現了未被標注的靜音音素。
YESNO為例對齊后每一幀狀態轉移id
實例：

home/speech.AI/kaldi/src/bin/align-equal-compiled ark:graphs.fsts ark:delta.ark ark:equal.ali

4. gmm-acc-stats-ali 累積模型重估所需數據

Usage: gmm-acc-stats-ali [options] <model-in> <feature-rspecifier> <alignments-rspecifier> <stats-out>
e.g.:  gmm-acc-stats-ali 1.mdl scp:train.scp ark:1.ali 1.acc

對於每一幀的特征和其對齊（transition-id）：
- 對於轉移模型（TM），累積tid出現的次數；
- 對於AM，由tid得到pdf-id，也就是找到對應該pdf-id的DiagGmm對象，更新與該DiagGmm對象相關的AccumDiagGmm的參數，也就是計算得到三個GMM參數更新公式的分子部分（包括每一混合分量的后驗（occupancy_中保存\(∑nj=1γ^jk\)）、每一分量的后驗乘以當前幀的特征(mean_accumulator_中保存\(∑nj=1γ^jkyj\)，\(MxD\)維)、每一分量的后驗乘以當前幀的特征每一維的平方(variance_accumulator_中保存\(∑nj=1γ^jky2j\)，\(MxD\)維)）
處理完所有數據后，將TM和AM的累積量寫到一個文件中：x.JOB.acc中

實例：

/home/speech.AI/kaldi/src/gmmbin/gmm-acc-stats-ali 0.mdl ark:delta.ark ark:equal.ali 0.acc

5. gmm-sum-accs 並行數據合並

gmm-acc-stats-ali生成的累計量分散在JOB個文件中，該程序將分散的對應同一trans-id、pdf-id的累計量合並在一起
如果不是多個線程就不必進行合並。

Usage: gmm-sum-accs [options] <stats-out> <stats-in1> <stats-in2> ...
E.g.:  gmm-sum-accs 1.acc 1.1.acc 1.2.acc

6. gmm-est 聲音模型參數重估

作用：Do Maximum Likelihood re-estimation of GMM-based acoustic model.調用gmm-est對0.mdl進行重新估計，該程序對基於GMM的聲學模型進行最大似然重新估計，生成exp/mono/1.mdl

Usage: gmm-est [options] <model-in> <stats-in> <model-out>
e.g.:  gmm-est 1.mdl 1.acc 2.mdl

實例：

/home/speech.AI/kaldi/src/gmmbin/gmm-est 0.mdl 0.acc 1.mdl

7. gmm-boost-silence 模型平滑處理

作用：修改基於GMM的模型以（通過某個因素）提升與指定電話相關的所有概率（可以是所有靜音電話，或者僅用於可選靜音）。注意：這是通過修改GMM權重來完成的。如果沉默模型與其他模型共享GMM，則它將修改可能對應於靜音的所有模型的GMM權重
Modify GMM-based model to boost (by a certain factor) all probabilities associated with the specified phones (could be all silence phones, or just the ones used for optional silence). Note: this is done by modifying the GMM weights. If the silence model shares a GMM with other models, then it will modify the GMM weights for all models that may correspond to silence.

Usage:  gmm-boost-silence [options] <silence-phones-list> <model-in> <model-out>
e.g.: gmm-boost-silence --boost=1.5 1:2:3 1.mdl 1_boostsil.mdl

實例：

/home/speech.AI/kaldi/src/gmmbin/gmm-boost-silence --boost=1.0 1 1.mdl 1_new.mdl

8. gmm-align-compiled 特征重新對齊

使用新的模型和原來的訓練狀態圖對原來的特征文件進行重新對齊。

Usage: gmm-align-compiled [options] <model-in> <graphs-rspecifier> <feature-rspecifier> <alignments-wspecifier> [scores-wspecifier]
e.g.:  gmm-align-compiled 1.mdl ark:graphs.fsts scp:train.scp ark:1.ali

或者重新編譯新的訓練狀態圖然后對齊：

or： compile-train-graphs tree 1.mdl lex.fst 'ark:sym2int.pl -f 2- words.txt text|' ark:- | gmm-align-compiled 1.mdl ark:- scp:train.scp t, ark:1.ali

實例：

首先重新生成訓練圖：

/home/speech.AI/kaldi/src/bin/compile-train-graphs 0.tree 1.mdl ../data/lang/L.fst 'ark:/home/speech.AI/kaldi/egs/wsj/s5/utils/sym2int.pl -f 2- words.txt text|' ark:graphs_new.fsts

然后使用新的解碼圖進行對齊：

/home/speech.AI/kaldi/src/gmmbin/gmm-align-compiled 1.mdl ark:graphs_new.fsts ark:delta.ark ark,t:ali1.txt

然后就可以獲得新的對齊標注：

3 1 12 10 10 10 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 26 25 25 25 28 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 29 29 29 29 29 2 7 5 5 5 13 15 15 15 15 15 7 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 14 15 15 15 15 15 9 10 7 5 5 5 13 15 15 15 15 15 15 8 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 17 26 25 25 25 25 28 27 27 27 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 29 2 1 1 1 1 1 6 5 9 10 10 10 10 10 8 5 5 5 5 5 5 5 5 5 5 18 17 17 17 17 17 26 25 25 25 28 27 27 27 27 27 27 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 29 29 2 8 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 18 17 17 17 17 17 17 17 17 26 25 25 25 25 25 25 25 25 25 28 27 27 27 27 27 27 27 30 29 29 29 29 29 29 29 29 29 2 1 1 1 1 1 1 1 1 1 1 1 1 8 5 5 5 5 5 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 21 21 24 23 23 23 23 3 1 1 1 1 1 1 12 10 10 10 10 10 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 19 19 19 22 21 21 21 21 21 21 24 23 23 23 23 23 23 23 2 1 1 1 1 1 1 8 5 5 5 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 20 19 19 19 19 19 19 19 19 22 21 21 21 24 23 23 23 23 23 20 19 19 19 19 19 19 19 22 21 21 21 21 21 21 21 21 24 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 2 1 1 1 8 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17];

重新對齊的文件如下所示：
常用的可選項為--beam=16，調整參數可以得到不同的對齊結果。

/home/speech.AI/kaldi/src/gmmbin/gmm-align-compiled --beam=16 1.mdl ark:graphs_new.fsts ark:delta.ark ark,t:ali1.txt

這里寫圖片描述

9. train_mono.sh 整體流程詳解

整個腳本的思想就是：

1.  gmm-init-mono 模型初始化
2. compile-train-graghs 訓練圖初始化
3. align-equal-compiled 特征文件均勻分割
4. gmm-acc-stats-ali 累積模型重估所需數據
5. gmm-sum-accs 並行數據合並
6. gmm-est 聲音模型參數重估
7. gmm-boost-silence 模型平滑處理
8. gmm-align-compiled 特征重新對齊
9. 重復n次執行：7->8->4->5->6（重新對齊->參數重新估計）
10. 輸出最終參數

#!/bin/bash
# Copyright 2012  Johns Hopkins University (Author: Daniel Povey)
# Apache 2.0


# To be run from ..
# Flat start and monophone training, with delta-delta features.
# This script applies cepstral mean normalization (per speaker).

# Begin configuration section.
nj=4
cmd=run.pl
scale_opts="--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1"
num_iters=40    # Number of iterations of training   訓練迭代次數
max_iter_inc=30 # Last iter to increase #Gauss on.   高斯數遞增的最大次數
totgauss=1000 # Target #Gaussians.
careful=false
boost_silence=1.0 # Factor by which to boost silence likelihoods in alignment   強制改變某些音素的似然概率因子，見下面的代碼
realign_iters="1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 23 26 29 32 35 38";
config= # name of config file.
stage=-4
power=0.25 # exponent to determine number of gaussians from occurrence counts 
norm_vars=false # deprecated, prefer --cmvn-opts "--norm-vars=false"   
cmvn_opts=  # can be used to add extra options to cmvn.   cmvn選項
# End configuration section.

echo "$0 $@"  # Print the command line for logging

if [ -f path.sh ]; then . ./path.sh; fi
. parse_options.sh || exit 1;

if [ $# != 3 ]; then
  echo "Usage: steps/train_mono.sh [options] <data-dir> <lang-dir> <exp-dir>"
  echo " e.g.: steps/train_mono.sh data/train.1k data/lang exp/mono"
  echo "main options (for others, see top of script file)"
  echo "  --config <config-file>                           # config containing options"
  echo "  --nj <nj>                                        # number of parallel jobs"
  echo "  --cmd (utils/run.pl|utils/queue.pl <queue opts>) # how to run jobs."
  exit 1;
fi

data=$1
lang=$2
dir=$3

oov_sym=`cat $lang/oov.int` || exit 1;#靜音符號表

# 按照任務數，將訓練數據分成多份，每個任務處理一份數據。
mkdir -p $dir/log
echo $nj > $dir/num_jobs
sdata=$data/split$nj;
[[ -d $sdata && $data/feats.scp -ot $sdata ]] || split_data.sh $data $nj || exit 1;

# 特征歸一化選項，這里默認指定要對variance進行歸一化，還可從外部接收其他歸一化選項，如果外部指定不對variance進行歸一化，則外部指定生效。
$norm_vars && cmvn_opts="--norm-vars=true $cmvn_opts"
echo $cmvn_opts  > $dir/cmvn_opts # keep track of options to CMVN.

feats="ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.scp scp:$sdata/JOB/feats.scp ark:- | add-deltas ark:- ark:- |"
example_feats="`echo $feats | sed s/JOB/1/g`";

echo "$0: Initializing monophone system."

[ ! -f $lang/phones/sets.int ] && exit 1;
shared_phones_opt="--shared-phones=$lang/phones/sets.int"

if [ $stage -le -3 ]; then
  # Note: JOB=1 just uses the 1st part of the features-- we only need a subset anyway.
  # 獲取特征的維度
  if ! feat_dim=`feat-to-dim "$example_feats" - 2>/dev/null` || [ -z $feat_dim ]; then
    feat-to-dim "$example_feats" -
    echo "error getting feature dimension"
    exit 1;
  fi
  # Flat-start（又稱為快速啟動），作用是利用少量的數據快速得到一個初始化的 HMM-GMM 模型和決策樹
  # $lang/topo 中定義了每個音素（phone）所對應的 HMM 模型狀態數以及初始時的轉移概率
  # --shared-phones=$lang/phones/sets.int 選項指向的文件，即$lang/phones/sets.int(該文件生成roots.txt中開頭為share split的部分，表示同一行元素共享pdf，允許進行決策樹分裂),文件中同一行的音素（phone）共享 GMM 概率分布。tree文件由sets.int產生。
  # --train-feats=$feats subset-feats --n=10 ark:- ark:-| 選項指定用來初始化訓練用的特征，一般采用少量數據，程序內部會計算這批數據的means和variance，作為初始高斯模型。sets.int中所有行的初始pdf都用這個計算出來的means和variance進行初始化。
  $cmd JOB=1 $dir/log/init.log \
    gmm-init-mono $shared_phones_opt "--train-feats=$feats subset-feats --n=10 ark:- ark:-|" $lang/topo $feat_dim \
    $dir/0.mdl $dir/tree || exit 1;
fi
# 計算當前高斯數，（目標高斯數 - 當前高斯數）/ 增加高斯迭代次數 得到每次迭代需要增加的高斯數目
numgauss=`gmm-info --print-args=false $dir/0.mdl | grep gaussians | awk '{print $NF}'`
incgauss=$[($totgauss-$numgauss)/$max_iter_inc] # per-iter increment for #Gauss

# 構造訓練的網絡，從源碼級別分析，是每個句子構造一個phone level 的fst網絡。
# $sdaba/JOB/text 中包含對每個句子的單詞(words level)級別標注， L.fst是字典對於的fst表示，作用是將一串的音素（phones）轉換成單詞（words）
# 構造monophone解碼圖就是先將text中的每個句子，生成一個fst（類似於語言模型中的G.fst，只是相對比較簡單，只有一個句子），然后和L.fst 進行composition 形成訓練用的音素級別（phone level）fst網絡（類似於LG.fst）。
# fsts.JOB.gz 中使用 key-value 的方式保存每個句子和其對應的fst網絡，通過 key(句子) 就能找到這個句子的fst網絡，value中保存的是句子中每兩個音素之間互聯的邊（Arc）,例如句子轉換成音素后，標注為："a b c d e f",那么value中保存的其實是 a->b b->c c->d d->e e->f 這些連接（kaldi會為每種連接賦予一個唯一的id），后面進行 HMM 訓練的時候是根據這些連接的id進行計數，就可以得到轉移概率。
if [ $stage -le -2 ]; then
  echo "$0: Compiling training graphs"
  $cmd JOB=1:$nj $dir/log/compile_graphs.JOB.log \
    compile-train-graphs $dir/tree $dir/0.mdl  $lang/L.fst \
    "ark:sym2int.pl --map-oov $oov_sym -f 2- $lang/words.txt < $sdata/JOB/text|" \
    "ark:|gzip -c >$dir/fsts.JOB.gz" || exit 1;
fi

if [ $stage -le -1 ]; then
  echo "$0: Aligning data equally (pass 0)"
  $cmd JOB=1:$nj $dir/log/align.0.JOB.log \
# 訓練時需要將標注跟每一幀特征進行對齊，由於現在還沒有可以用於對齊的模型，所以采用最簡單的方法 -- 均勻對齊
# 根據標注數目對特征序列進行等間隔切分，例如一個具有5個標注的長度為100幀的特征序列，則認為1-20幀屬於第1個標注，21-40屬於第2個...
# 這種划分方法雖然會有誤差，但待會在訓練模型的過程中會不斷地重新對齊。
    align-equal-compiled "ark:gunzip -c $dir/fsts.JOB.gz|" "$feats" ark,t:-  \| \
# 對對齊后的數據進行訓練，獲得中間統計量，每個任務輸出到一個acc文件。
# acc中記錄跟HMM 和GMM 訓練相關的統計量：
# HMM 相關的統計量：兩個音素之間互聯的邊（Arc） 出現的次數。
#                 如上面所述，fst.JOB.gz 中每個key對於的value保存一個句子中音素兩兩之間互聯的邊。
#                 gmm-acc-stats-ali 會統計每條邊（例如a->b）出現的次數，然后記錄到acc文件中。
# GMM 相關的統計量：每個pdf-id 對應的特征累計值和特征平方累計值。
#                 對於每一幀，都會有個對齊后的標注，gmm-acc-stats-ali 可以根據標注檢索得到pdf-id,
#                 每個pdf-id 對應的GMM可能由多個單高斯Component組成，會先計算在每個單高斯Component對應的分布下這一幀特征的似然概率（log-likes），稱為posterior。
#                 然后：
#                    （1）把每個單高斯Component的posterior加到每個高斯Component的occupancy（占有率）計數器上，用於表征特征對於高斯的貢獻度，
#                        如果特征一直落在某個高斯的分布區間內，那對應的這個值就比較大；相反，如果一直落在區間外，則表示該高斯作用不大。
#                        gmm-est中可以設置一個閾值，如果某個高斯的這個值低於閾值，則不更新其對應的高斯。
#                        另外這個值（向量)其實跟后面GMM更新時候的高斯權重weight的計算相關。
#                    （2）把這一幀數據加上每個單高斯Component的posterior再加到每個高斯的均值累計值上；
#                        這個值（向量）跟后面GMM的均值更新相關。
#                    （3）把這一幀數據的平方值加上posterior再加到每個單高斯Component的平方累計值上；
#                        這個值（向量）跟后面GMM的方差更新相關。
#                 最后將均值累計值和平方累計值寫入到文件中。
    gmm-acc-stats-ali --binary=true $dir/0.mdl "$feats" ark:- \
    $dir/0.JOB.acc || exit 1;
fi

# In the following steps, the --min-gaussian-occupancy=3 option is important, otherwise
# we fail to est "rare" phones and later on, they never align properly.
# 根據上面得到的統計量，更新每個GMM模型，AccumDiagGmm中occupancy_的值決定混合高斯模型中每個單高斯Component的weight；
# --min-gaussian-occupancy 的作用是設置occupancy_的閾值，如果某個單高斯Component的occupancy_低於這個閾值，那么就不會更新這個高斯，
# 而且如果 --remove-low-count-gaussians=true,則對應得單高斯Component會被移除。
if [ $stage -le 0 ]; then
  gmm-est --min-gaussian-occupancy=3  --mix-up=$numgauss --power=$power \
    $dir/0.mdl "gmm-sum-accs - $dir/0.*.acc|" $dir/1.mdl 2> $dir/log/update.0.log || exit 1;
  rm $dir/0.*.acc
fi


beam=6 # will change to 10 below after 1st pass
# note: using slightly wider beams for WSJ vs. RM.
x=1
while [ $x -lt $num_iters ]; do
  echo "$0: Pass $x"
  if [ $stage -le $x ]; then
    if echo $realign_iters | grep -w $x >/dev/null; then
      echo "$0: Aligning data"
      # gmm-boost-silence 的作用是讓某些phones（由第一個參數指定）對應pdf的weight乘以--boost 參數所指定的數字，強行提高（如果大於1）/降低（如果小於1）這個phone的概率。
      # 如果多個phone共享同一個pdf,程序中會自動做去重，乘法操作只會執行一次。
      mdl="gmm-boost-silence --boost=$boost_silence `cat $lang/phones/optional_silence.csl` $dir/$x.mdl - |"
      # 執行force-alignment操作。
      # --self-loop-scale 和 --transition-scale 選項跟HMM 狀態跳轉相關，前者是設置自轉因子，后者是非自傳因子，可以修改這兩個選項控制HMM的跳轉傾向。
      # --acoustic-scale 選項跟GMM輸出概率相關，用於平衡 GMM 輸出概率和 HMM 跳轉概率的重要性。
      # --beam 選項用於計算對解碼過程中出現較低log-likelihood的token進行裁剪的閾值，該值設計的越小，大部分token會被裁剪以便提高解碼速度，但可能會在開始階段把正確的token裁剪掉導致無法得到正確的解碼路徑。
      # --retry-beam 選項用於修正上述的問題，當無法得到正確的解碼路徑后，會增加beam的值，如果找到了最佳解碼路徑則退出，否則一直增加指定該選項設置的值，如果還沒找到，就拋出警告，導致這種問題要么是標注本來就不對，或者retry-beam也設計得太小。
      $cmd JOB=1:$nj $dir/log/align.$x.JOB.log \
        gmm-align-compiled $scale_opts --beam=$beam --retry-beam=$[$beam*4] --careful=$careful "$mdl" \
        "ark:gunzip -c $dir/fsts.JOB.gz|" "$feats" "ark,t:|gzip -c >$dir/ali.JOB.gz" \
        || exit 1;
    fi
       # 更新模型 
    $cmd JOB=1:$nj $dir/log/acc.$x.JOB.log \
      gmm-acc-stats-ali  $dir/$x.mdl "$feats" "ark:gunzip -c $dir/ali.JOB.gz|" \
      $dir/$x.JOB.acc || exit 1;

    $cmd $dir/log/update.$x.log \
      gmm-est --write-occs=$dir/$[$x+1].occs --mix-up=$numgauss --power=$power $dir/$x.mdl \
      "gmm-sum-accs - $dir/$x.*.acc|" $dir/$[$x+1].mdl || exit 1;
    rm $dir/$x.mdl $dir/$x.*.acc $dir/$x.occs 2>/dev/null
  fi
  # 線性增加混合高斯模型的數目，直到指定數量。
  if [ $x -le $max_iter_inc ]; then
     numgauss=$[$numgauss+$incgauss];
  fi
  # 提高裁剪門限。
  beam=10
  x=$[$x+1]
done

( cd $dir; rm final.{mdl,occs} 2>/dev/null; ln -s $x.mdl final.mdl; ln -s $x.occs final.occs )

utils/summarize_warnings.pl $dir/log

echo Done

# example of showing the alignments:
# show-alignments data/lang/phones.txt $dir/30.mdl "ark:gunzip -c $dir/ali.0.gz|" | head -4

大部分內容參考如下：
心胸決定格局...：Kaldi單音素模型訓練部分

轉載請注明出處

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Kaldi單音素模型訓練部分從單音素到三音素模型 kaldi GMM模型解碼指令 gmm-latgen-faster詳解 kaldi HMM-GMM全部訓練腳本分解淺顯易懂的GMM模型及其訓練過程 kaldi chain模型的序列鑒別性訓練代碼分析如何讀取部分的預訓練模型三音素 [轉]kaldi基於GMM做分類問題 [轉]kaldi ASR: DNN訓練

kaldi基於GMM的單音素模型 訓練部分