[轉] 如何用kaldi訓練好的模型做特定任務的在線識別

本文轉載自查看原文 2017-09-21 10:49 2687 從零開始學kaldi

轉自：http://blog.csdn.net/inger_h/article/details/52789339

在已經訓練好模型的情況下，需要針對一個新任務做在線識別應該怎么做呢？

一種情況是，用已有的聲學模型和新訓練的語言模型。

語言模型可以同srilm等工具訓練，但是怎樣將語言模型與DNN 聲學模型結合一起來進行識別的。

SRILM可以用來訓練ARPA格式的LM，假設 train.txt是語料，wordlist是詞匯，假設語言模型的字典和識別器的字典一樣，可以按如下辦法訓練ＬＭ

ngram-count -text train.txt -order 3 -limit-vocab -vocab wordlist -unk \
  -map-unk "<unk>" -kndiscount -interpolate -lm srilm.o3g.kn.gz

然后通過下面的命令將 ARPA格式的LM轉化成WFST格式

mkdir -p $lang_own
cp -r $lang/* $lang_own
gunzip -c $lm | utils/find_arpa_oovs.pl $lang_own/words.txt \
  > $lang_own_tmp/oovs.txt || exit 1
gunzip -c $lm | \
  grep -v '<s> <s>' | \
  grep -v '</s> <s>' | \
  grep -v '</s> </s>' | \
  arpa2fst - | fstprint | \
  utils/remove_oovs.pl $lang_own_tmp/oovs.txt | \
  utils/eps2disambig.pl | utils/s2eps.pl | \
  fstcompile --isymbols=$lang_own/words.txt --osymbols=$lang_own/words.txt  \
  --keep_isymbols=false --keep_osymbols=false | \
  fstrmepsilon | fstarcsort --sort_type=ilabel > $lang_own/G.fst
utils/validate_lang.pl --skip-determinization-check $lang_own || exit 1;

最后生成新的語言模型在graph_own_dir

graph_own_dir=$model_dir/graph_own
utils/mkgraph.sh $lang_own $model_dir $graph_own_dir || exit 1;

第二種情況是，利用一個新的字典和已有的聲學模型

這種情況也比較多，例如用戶想改變字典，新增詞匯。首先要修改lexicon,例如通過新增加單詞到原來的lexicon。如果不知道新單詞對應的pronounciation, 可以通過工具 grapheme-to-phoneme G2P轉化自動生成lexicon .常見的G2P工具有 Sequitur and Phonetisaurus。利用新的lexicon可以創建新的lang目錄

utils/prepare_lang.sh \
  --phone-symbol-table $lang/phones.txt \
  $dict_own "<SPOKEN_NOISE>" $lang_own_tmp $lang_own

新生成的lang就會在lang_own目錄下。 -- phone-symbol-table選項十分重要，它保證了新lexicon里面的音素和原來識別器里面的音素是對應的。最后再生成語言模型。

graph_own_dir=$model_dir/graph_own
utils/mkgraph.sh $lang_own $model_dir $graph_own_dir || exit 1;

第三種情況是，字典語料都不同，語言模型也重新訓練。這個時候從准備字典開始就要重新做。

./local/ general_prep_dict.sh ./tv

utils/ prepare_lang.sh --phone-symbol-table data/lang/phones.txt tv3/dict/ "<UNK>" tv3/local/lang tv3/lang

local/ general_train_lm.sh tv

local/ general format_data.sh tv

utils/ mkgraph.sh tv/lang_dev/ exp/tri3b_dnn_2048x5/ tv/graph

注意：有可能在prepare_lang的時候可能會出錯，這是因為准備字典時生成的lexicon.txt, non_silence_phone.txt,extra_questions.txt里面有可能會含有原來聲學模型訓練時沒有的因子，必須要保持兩者一致。

Checking tv4/dict/extra_questions.txt ...
--> reading tv4/dict/extra_questions.txt
--> ERROR: phone "X5" is not in {, non}silence.txt (line 120, block 17)
--> ERROR validating dictionary directory tv4/dict (see detailed error messages above)

Checking tv3/dict/extra_questions.txt ...
--> reading tv3/dict/extra_questions.txt
--> tv3/dict/extra_questions.txt is OK
--> SUCCESS [validating dictionary directory tv3/dict]

Phone appears in the lexicon but not in the provided phones.txt: X5

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pytorch 加載訓練好的模型做inference 如何用kaldi做孤立詞識別三如何用kaldi做孤立詞識別二如何用kaldi做孤立詞識別-初版 kaldi 在線識別如何用Tensorflow訓練模型成pb文件和和如何加載已經訓練好的模型文件 Tensorflow 用訓練好的模型預測 tensorflow訓練好的模型怎么調用？ [轉]kaldi ASR: DNN訓練 caffe初步實踐---------使用訓練好的模型完成語義分割任務