MFCC/Filter Bank的提取流程


   

  1. 預加重:通過一個一階有限激勵響應高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應的影響。
  2. 分幀:根據語音的短時平穩特性,語音可以以幀為單位進行處理,實驗中選取的語音幀長為32ms,幀移為16ms
  3. 加窗:采用漢明窗對一幀語音加窗,以減小吉布斯效應的影響。
    1. 漢明窗,海明窗,是一個窗函數,這個函數在某一區間有非零值,而在其余區間皆為0。這是為了方便做快速傅里葉變換
  4. 快速傅立葉變換(Fast Fourier Transformation, FFT):將時域信號變換成為信號的功率譜頻域信號
  5. 梅爾濾波器組: 用一組Mel頻標上線性分布的三角窗濾波器(共24個三角窗濾波器),對信號的功率譜濾波,每一個三角窗濾波器覆蓋的范圍都近似於人耳的一個臨界帶寬,以此來模擬人耳的掩蔽效應 一般取40個三角濾波器,取對數后即40fbank
  6. 求對數:三角窗濾波器組的輸出求取對數,可以得到近似於同態變換的結果。
  7. 離散余弦變換(Discrete Cosine Transformation, DCT,可選):去除各維信號之間的相關性去相關,將信號映射到低維空間(從40維降到13維) 若去除這一步,得到的則是Filter Bank特征,因為dnn模型可以學習特征間的相關性因此不需要去相關性的操作。
  8. 得到MFCCFilter Bank
  9. Delta差分:大量實驗表明,在語音特征中加入表征語音動態特性的差分參數,能夠提高系統的識別性能。在本系統中,我們也用到了MFCC參數的一階差分參數( Delta-Delta)和二階差分參數( Delta-Delta+Delta)。

       

   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM