MFCC/Filter Bank的提取流程

本文轉載自查看原文 2017-09-09 22:38 2207

預加重：通過一個一階有限激勵響應高通濾波器，使信號的頻譜變得平坦，不易受到有限字長效應的影響。
分幀：根據語音的短時平穩特性，語音可以以幀為單位進行處理，實驗中選取的語音幀長為32ms，幀移為16ms。
加窗：采用漢明窗對一幀語音加窗，以減小吉布斯效應的影響。
1. 漢明窗，海明窗，是一個窗函數，這個函數在某一區間有非零值，而在其余區間皆為0。這是為了方便做快速傅里葉變換
快速傅立葉變換（Fast Fourier Transformation, FFT）：將時域信號變換成為信號的功率譜（頻域信號）。
梅爾濾波器組：用一組Mel頻標上線性分布的三角窗濾波器（共24個三角窗濾波器），對信號的功率譜濾波，每一個三角窗濾波器覆蓋的范圍都近似於人耳的一個臨界帶寬，以此來模擬人耳的掩蔽效應。一般取40個三角濾波器，取對數后即40維fbank
求對數：三角窗濾波器組的輸出求取對數，可以得到近似於同態變換的結果。
離散余弦變換（Discrete Cosine Transformation, DCT，可選）：去除各維信號之間的相關性（去相關），將信號映射到低維空間（從40維降到13維）。 若去除這一步，得到的則是Filter Bank特征，因為dnn模型可以學習特征間的相關性，因此不需要去相關性的操作。
得到MFCC或Filter Bank
Delta差分：大量實驗表明，在語音特征中加入表征語音動態特性的差分參數，能夠提高系統的識別性能。在本系統中，我們也用到了MFCC參數的一階差分參數( Delta-Delta)和二階差分參數( Delta-Delta+Delta)。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HTK計算mfcc/filter_bank源碼解析 MFCC特征參數提取流程概述提取.bank音頻包。 Extract .bank audio files 基於MFCC的語音數據特征提取概述 AI大語音（四）——MFCC特征提取 MFCC特征提取及MATLAB代碼分析（一） MFCC特征提取過程詳解 mfcc的特征提取python 代碼實現和解析 MFCC特征提取(C語言版本) 語音識別中的MFCC的提取原理和MATLAB實現