- 預加重:通過一個一階有限激勵響應高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應的影響。
- 分幀:根據語音的短時平穩特性,語音可以以幀為單位進行處理,實驗中選取的語音幀長為32ms,幀移為16ms。
-
加窗:采用漢明窗對一幀語音加窗,以減小吉布斯效應的影響。
- 漢明窗,海明窗,是一個窗函數,這個函數在某一區間有非零值,而在其余區間皆為0。這是為了方便做快速傅里葉變換
- 快速傅立葉變換(Fast Fourier Transformation, FFT):將時域信號變換成為信號的功率譜(頻域信號)。
- 梅爾濾波器組: 用一組Mel頻標上線性分布的三角窗濾波器(共24個三角窗濾波器),對信號的功率譜濾波,每一個三角窗濾波器覆蓋的范圍都近似於人耳的一個臨界帶寬,以此來模擬人耳的掩蔽效應。 一般取40個三角濾波器,取對數后即40維fbank
- 求對數:三角窗濾波器組的輸出求取對數,可以得到近似於同態變換的結果。
- 離散余弦變換(Discrete Cosine Transformation, DCT,可選):去除各維信號之間的相關性(去相關),將信號映射到低維空間(從40維降到13維)。 若去除這一步,得到的則是Filter Bank特征,因為dnn模型可以學習特征間的相關性,因此不需要去相關性的操作。
- 得到MFCC或Filter Bank
-
Delta差分:大量實驗表明,在語音特征中加入表征語音動態特性的差分參數,能夠提高系統的識別性能。在本系統中,我們也用到了MFCC參數的一階差分參數( Delta-Delta)和二階差分參數( Delta-Delta+Delta)。