Kaldi的delta特征

本文轉載自查看原文 2017-09-09 22:45 1749

Delta特征是將mfcc特征(13維)經過差分得到的

它是做了一階二階的差分

提取的mfcc特征是13維的

然后通過delta就變成了39維

一階差分：

D(P(t))=P(t)-P(t-1)

二階差分：

D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))

Delta=Δ=差分

在

voxforge/s5/run.sh:116

rm/s5/run.sh:80

vystadial_cz/s5/run.sh:82

都注釋了下一行的訓練使用delta+delta-delta特征

在這之前，都運行了

steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd" \

--use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>

"--use-graphs=true"意思是，使用 <src-dir>中的train graph(在fsts.JOB.gz中)

如果不加上，則默認"use-graphs=false"，即用<src-dir>中的tree, final.mdl輸入搭配compile-train-graph中生成訓練的fst(train graph)

steps/train_deltas.sh是訓練一個delta+delta-delta三音素系統（模型）

steps/align_si.sh對delta特征進行apply-cmvn, add-deltas

對lda特征進行apply-cmvn, splice-feats（可選）, 用final.mat進行transform-feats

delta特征與splice特征的區別

2017/5/20 16:23

[chick](616310753) 16:09:17

delte是顯式給出差分

splice是在時間上作擴展

包含了差分信息

但是不是顯式給出的，在學習中可能學習不到差分知識，可能學習到別的知識

語音研究生求南(287568706) 16:09:58

delta是同一幀復制多次嗎？

[chick](616310753) 16:10:11

上一幀-當前幀

語音識別原理介紹_V1.3_1034.pdf

分幀后，語音就變成了很多小段。但波形在時域上幾乎沒有描述能力，因此必須將波形作變換。常見的一種變換方法是提取 MFCC 特征，把每一幀波形變成一個12維向量。這12個點是根據人耳的生理特性提取的，可以理解為這12個點包含了這幀語音的內容信息。這個過程叫做聲學特征提取。實際應用中，這一步有很多細節，比如差分、均值方差規整、高斯化、降維去冗余等，聲學特征也不止有 MFCC 這一種，具體就不詳述了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [轉]kaldi中的特征提取 [轉]kaldi特征和模型空間轉換 kaldi解碼及特征提取詳解 Delta Lake Kaldi安裝 Delta方法與Slutsky定理 Delta Lake源碼分析梯度下降與delta法則 kaldi入門-編譯安裝 kaldi 的安裝和測試