Kaldi的delta特征


Delta特征是將mfcc特征(13)經過差分得到的

它是做了一階二階的差分

提取的mfcc特征是13維的

然后通過delta就變成了39

一階差分:

D(P(t))=P(t)-P(t-1)

二階差分:

D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))

Delta=Δ=差分

   

   

voxforge/s5/run.sh:116

rm/s5/run.sh:80

vystadial_cz/s5/run.sh:82

都注釋了下一行的訓練使用delta+delta-delta特征

在這之前,都運行了

steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd" \

--use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>

"--use-graphs=true"意思是,使用 <src-dir>中的train graph(fsts.JOB.gz)

如果不加上,則默認"use-graphs=false",即用<src-dir>中的tree, final.mdl輸入搭配compile-train-graph中生成訓練的fst(train graph)

steps/train_deltas.sh是訓練一個delta+delta-delta三音素系統(模型)

steps/align_si.sh對delta特征進行apply-cmvn, add-deltas

對lda特征進行apply-cmvn, splice-feats(可選), 用final.mat進行transform-feats

  • delta特征與splice特征的區別

2017/5/20 16:23

[chick](616310753) 16:09:17

delte是顯式給出差分

splice是在時間上作擴展

包含了差分信息

但是不是顯式給出的,在學習中可能學習不到差分知識,可能學習到別的知識

   

語音研究生求南(287568706) 16:09:58

delta是同一幀復制多次嗎?

   

[chick](616310753) 16:10:11

上一幀-當前幀

語音識別原理介紹_V1.3_1034.pdf

分幀后,語音就變成了很多小段。但波形在時域上幾乎沒有描述能力,因此必須 將波形作變換。常見的一種變換方法是提取 MFCC 特征,把每一幀波形變成一 個12維向量。這12個點是根據人耳的生理特性提取的,可以理解為這12個點包含 了這幀語音的內容信息。這個過程叫做聲學特征提取。實際應用中,這一步有很 多細節,比如差分、均值方差規整、高斯化、降維去冗余等,聲學特征也不止有 MFCC 這一種,具體就不詳述了。

   

   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM