Delta特征是將mfcc特征(13維)經過差分得到的
它是做了一階二階的差分
提取的mfcc特征是13維的
然后通過delta就變成了39維
一階差分:
D(P(t))=P(t)-P(t-1)
二階差分:
D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))
Delta=Δ=差分
在
voxforge/s5/run.sh:116
rm/s5/run.sh:80
vystadial_cz/s5/run.sh:82
都注釋了下一行的訓練使用delta+delta-delta特征
在這之前,都運行了
steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd" \
--use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>
"--use-graphs=true"意思是,使用 <src-dir>中的train graph(在fsts.JOB.gz中)
如果不加上,則默認"use-graphs=false",即用<src-dir>中的tree, final.mdl輸入搭配compile-train-graph中生成訓練的fst(train graph)
steps/train_deltas.sh是訓練一個delta+delta-delta三音素系統(模型)
steps/align_si.sh對delta特征進行apply-cmvn, add-deltas
對lda特征進行apply-cmvn, splice-feats(可選), 用final.mat進行transform-feats
- delta特征與splice特征的區別
2017/5/20 16:23
[chick](616310753) 16:09:17
delte是顯式給出差分
splice是在時間上作擴展
包含了差分信息
但是不是顯式給出的,在學習中可能學習不到差分知識,可能學習到別的知識
語音研究生求南(287568706) 16:09:58
delta是同一幀復制多次嗎?
[chick](616310753) 16:10:11
上一幀-當前幀
語音識別原理介紹_V1.3_1034.pdf
分幀后,語音就變成了很多小段。但波形在時域上幾乎沒有描述能力,因此必須 將波形作變換。常見的一種變換方法是提取 MFCC 特征,把每一幀波形變成一 個12維向量。這12個點是根據人耳的生理特性提取的,可以理解為這12個點包含 了這幀語音的內容信息。這個過程叫做聲學特征提取。實際應用中,這一步有很 多細節,比如差分、均值方差規整、高斯化、降維去冗余等,聲學特征也不止有 MFCC 這一種,具體就不詳述了。
