引言
感知實驗表明,人耳對於聲音信號的感知聚焦於某一特定頻率區域內,而非在整個頻譜包絡中。耳蝸的濾波作用是在對數頻率尺度進行的,在1000Hz以下為線性,在1000Hz以上為對數,這就使得人耳對低頻比高頻更敏感。
心理物理學研究表明,人類對語音信號頻率內容的感知遵循一種主觀上定義的非線性尺度,該非線性標度可被稱為“Mel”標度。
MFCC是將人耳的聽覺感知特性和語音產生機制相結合,因此目前大多數語音識別系統廣泛使用這種特征。對頻率軸不均勻划分是MFCC特征區別於前面普通倒譜特征的最重要的特點,變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel刻度均勻排列的。
語音的MFCC特征是基於人耳感知實驗得到,將人耳當成特定的濾波器,只考慮某些特定頻率成分。這些濾波器是在頻域上不均勻分布的。更多的濾波器聚集於低頻部分,高頻部分的濾波器較少。采樣率16Khz時,下圖實例:
MFCC計算及其意義
MFCC是一種倒譜特征,計算意義見下圖:
其中,對於聲音信號,一般會進行分幀后再提取特征,利用不同的窗函數實現。
MFCC可以描述為:【Spectrum → Mel-Filters → Mel-Spectrum】
先計算當前幀數據的頻譜(通過FFT)得到短時譜,再經過mel濾波器濾波,輸出對數MEL能量譜,經過DCT去相關,得到MFCC系數(此時特征維數由DCT系數數目決定)。
mel三角帶通濾波器有兩個主要目的:對頻譜進行平滑化,並消除諧波的作用,突顯原先語音的共振峰。(因此一段語音的音調或音高,是不會呈現在 MFCC 參數內,換句話說,以 MFCC 為特征的語音辨識系統,並不會受到輸入語音的音調不同而有所影響) 此外,還可以降低運算量。
其中,經過對數操作之后,有同態信號處理的意思。
經過特征提取,語音信號可以通過一系列的倒譜向量表示。