音頻分類技術


音頻分類前置知識

音頻

音頻常常被表示為波形圖,其中橫軸為時間,縱軸為幅值。音頻多種多樣,分類中一般分為語音、音樂、噪音、靜音和環境音等。

采樣頻率

每秒從模擬信號中采集的樣本個數,基本單位為Hz。信號的采樣頻率一般遵循奈奎斯特采樣定理,即采樣頻率必須大於被采樣信號最高頻率的兩倍。一般而言:

  • 8000Hz為電話信號使用的采樣率;
  • 11025Hz通話音質更高,可分辨出通話人;
  • 16000Hz可覆蓋幾乎所有的樂器和人聲頻率,也是大多數成年人能夠聽到的聲音頻率;
  • 22050Hz為無線電廣播長采用的頻率;
  • 32000HzVCD等多媒體數據文件所使用的采樣率;
  • 44100Hz為CD音頻使用的采樣率;
  • 192000Hz為藍光音軌和高清晰度DVD音軌的采樣率。
采樣位數

每一個采樣點所使用的二進制位數,即計算機對聲音信號的解析度。通常使用的采樣位數有8位,16位和24位。

音頻的構成要素
  • 聲學三要素:聲音的音調、音色和響度。
    • 音調:也稱音高,對應音頻信號的頻率。音頻信號的音調越高月能夠給人以明亮和尖銳的感覺,音調越低越是給人厚重和低沉的感覺。
    • 音色:也稱音品,對應音頻信號的相位。主要由音頻信號波形的包絡和信號諧波的頻譜,包含不同包絡和不同諧波的音頻信號的內容也不同。音頻信號頻譜的基頻所產生的能量最大的音稱為基音,相應的各次諧波所發出的聲音一般被稱為泛音。不同的音頻信號中一般都包含着固定的基音頻率和不同強弱的泛音。
    • 響度:播放出的音頻的音量,對應着音頻信號的幅度。音頻的響度主要取決於信號的振幅大小,也即聲音信號包含的能量大小。
  • 音樂三要素:旋律、節奏和和聲。
    • 旋律,也稱“曲調”,是構成音樂的首要因素。旋律幾乎可以指代任何含有音高和節奏的人聲或樂器的樂音序列,不同組合的音高和節奏表現出的音樂旋律也不盡相同。
    • 節奏:音樂的節奏是由不同長短或強弱的節拍組成的有序整體,一般而言急促的節奏能夠給人帶來緊張的感覺,舒緩的節奏則給人帶來輕松愉悅的感覺。
    • 和聲:在同一時間由兩個或兩個以上音高的音組合發生形成的聲音。

特征提取

音頻信號分析一般分為時域分析、頻域分析,倒譜域分析等。

時域特征

處理直觀、運算量小。設\(L\)表示分幀的幀長,\(u_i(n)\)表示分幀后得到的第\(i\)幀信號中第\(n\)個點的幅度值。

短時能量DSNL

短時能量常用於音頻信號的端點檢測,表示音頻信號在一段很小窗口內的能量之和:

\[DSNL_i=\sum_{n=1}^L u_i^2(n) \]

短時能量和短時過零率是音頻信號時域特征中最重要和基本的特征,主要反映時域中音頻信號的能量隨時間的變化,可區分能量差異較為明顯的音頻。一般而言,濁音段的平均短時能量最高,其次是清音段,無聲段的平均短時能量最低。

短時過零率DSGLL

信號中的過零,即在數字信號波形中,相鄰信號幅值的符號發生變化的次數占信號樣本總樣本點數的比值,反映的是信號相鄰幅值之間連線穿過零電平的次數。濁音的平均短時過零率一般小於清音的平均短時過零率,這主要是因為發清音時引起的頻譜高頻跌落,導致信號能量大多集中在較低頻段,而發濁音時沒有這種情況,其能量大多集中在較高頻段:

\[DSGLL_i=\frac{\sum_{n=1}^L|sgn[u_i(n)]-sgn[u_i(n-1)]|}{2L} \]

其中\(sgn[]\)是符號函數,即:

\[sgn[x]=\left\{\begin{matrix} 1,x \geq 0 \\ -1,x<0 \end{matrix}\right. \]

短時平均幅度差DSFDC

\[DSFDC_i(k)=\frac{\sum_{n=0}^{L-k-1}|u_i(n+k)-u_i(n)|}{L} \]

其中\(k\)為延遲量,\(k\in [1,L]\)。如果音頻信號是周期性為\(pn\)的周期性信號,則當\(k=0,\pm pn,\pm 2pn,...\)時,\(DSFDC_i(k)\)的值為0;當音頻信號不是周期性信號時,在基音周期處\(DSFDC_i(k)\)組成的曲線會出現谷值,並且隨着時間增加,低谷深度隨之衰減。

短時自相關系數ZXGXS

短時自相關函數一般用於信號的端點檢測和基音提取,可用於區分語音中的聲母和韻母,音頻信號的短時自相關系數計算公式如下:

\[ZXGXS_i(k)=\frac{\sum_{n=0}^{L-k-1}u_i(n)u_i(n+k)}{L} \]

其中\(k\)為延遲量,\(k\in [1,L]\)

短時平均幅度DSPJFD

短時平均幅度類似於短時能量,均反映音頻信號能量大小。它與短時能量的主要區別在於,其不會因為對信號采樣幅值的大小取二次方而改變原始信號的時域信息:

\[DSPJFD_i=\frac{\sum_{n=1}^L|u_i(n)|}{L} \]

頻域特征

對音頻信號進行頻域上的研究,可以將信號在時域上無法表現的特征顯現出來。傅里葉變換(Fourier Transform)可以完成信號從時域到頻域的轉換,時域上連續的模擬信號被分解為不同頻率分量的頻譜,從而可以根據不同信號中包含頻譜的不同進行分類。

頻域能量PYNLE

頻域能量,即一幀音頻信號經傅里葉變換后在頻域的能量:

\[PYNLE_i=\int_0^{w_0}|F_i(w)|^2dw \]

其中,\(w_0\)為采樣頻率的二分之一,\(F_i(W)\)表示第\(i\)幀信號的傅里葉變換。頻域能量是區分靜音和非靜音的有效特征,通常而言語音中會包含比音樂更多的靜音片段,因此語音中的頻域能量變化要比音樂中的變化大。

子帶能量比ZDNLB

若將頻域划分為4個子帶,即\([0,\frac{w_0}{8}],[\frac{w_0}{8},\frac{w_0}{4}],[\frac{w_0}{4},\frac{w_0}{2}],[\frac{w_0}{2},w_0]\),則第\(i\)幀中第\(j\)個子帶能量與頻域總能量的比值\(ZDNLB_{ij}\)可以表示為:

\[ZDNLB_{ij}=\frac{\int_{w_1^j}^{w_2^j}|F_i(w)^2|dw}{PYNLE_i} \]

其中,\(w_1^j\)表示第\(j\)個子帶的下邊界頻率,\(w_2^j\)表示第\(j\)個子帶的上邊界頻率。由於在頻域中不同子帶包含的能量不同,因此可以使用子帶能量比進行分類,如音樂的子帶能量比分布比較均勻而語音信號的能量主要集中在初級子帶上。

基於幀的頻譜質心PPZX

頻譜質心是用於度量頻譜中心的特征,該值越大,表示信號的高頻成分越多,基於幀的頻譜質心的計算公式為:

\[PPZX_i=\frac{\sum_{w=l_i}^{h_i}w|F_i(w)|^2}{\sum_{w=l_i}^{h_i}|F_i(w)|^2} \]

其中,\(l_i\)\(h_i\)分別代表第\(i\)幀信號經過傅里葉變換后子帶中頻率的最小值和最大值。一般來說,不同音頻的頻譜質心不盡相同,音樂信號的頻譜質心一般高於語音信號的頻譜質心。

基於幀的頻譜帶寬

信號在頻域中包含諧波的最高頻率與最低頻率差的絕對值即為此信號的帶寬,反映的是音頻信號頻率的變化范圍,帶寬越大則信號頻率的變化范圍越大。基於幀的頻譜帶寬:

\[BW_i=\sqrt{\frac{\int_0^{w_0}(w-PPZX_i)^2|F_i(w)|^2dw}{\int_0^{w_0}|F_i(w)|^2dw}} \]

根據音頻信號帶寬,可以完成對音頻的分類。一般語音信號帶寬低於音樂信號。

基音周期PER

在發濁音時,聲帶會進行周期性的震動,所以濁音信號一般帶有明顯的周期性,而發濁音時聲帶振動的頻率就稱為聲音信號的基音頻率,該頻率對應的周期就是信號的基音周期。基音周期主要描述音頻信號激勵源的特征,音頻信號的基音變化模式不同其對應的聲調也不同,自相關函數法、平均幅度差函數法、倒譜法、小波法都是基音周期檢測常用的方法。

倒譜法計算基音周期:

聲音信號\(x(n)\)是聲門激勵\(eg(n)\)經聲道脈沖響應\(v(n)\)濾波得到的,即:

\[x(n)=eg(n)*v(n) \]

設這三個量的倒譜分別為\(\hat{x}(n),\hat{eg}(n),\hat{v}(n)\),則有:

\[\hat{x}(n)=\hat{eg}(n)+\hat{v}(n) \]

可見,在倒譜域中含有基音信息的聲脈沖倒譜\(\hat{eg}(n)\)與聲道響應倒譜\(\hat{v}(n)\)是相互分離的,因此可以直接從\(\hat{eg}(n)\)中恢復出\(eg(n)\),求出基音周期。實際上,計算出倒譜后,其倒譜函數的最大值對應的樣本數即為該幀音頻信號的基音周期。

基音頻率FP

基音周期FER取倒數即可得到基音頻率,音頻信號基音頻率的高低影響着聲音音調的高低,基音頻率越高則聲音的音調越高,反之亦然。

倒譜域特征

梅爾倒譜系數Mel-Scale Frequency Cepstral Coefficients, MFCC

梅爾倒譜系數是基於人類聽覺機理,在梅爾標度頻率域提取出來的信號的倒譜參數,其主要通過人的聽覺實驗結果對音頻信號進行分析。梅爾刻度是一種基於人耳對等距的音高pitch變化的感官判斷而定的非線性頻率刻度,和信號頻率\(f\)的關系如下:

\[F_{mel}=1125\mathop{ln}(1+\frac{f}{700}) \]

其中,\(F_{mel}\)是以梅爾(Mel)為單位的感知頻率,\(f\)是以\(Hz\)為單位的頻域頻率。

分幀加窗預加重,快速傅里葉變換,取對數離散余弦變換,即可得到MFCC參數。由於語音和音樂的頻譜大都分布在幾赫茲到幾千赫茲之間,高階的MFCC參數包含的音頻信息幾乎可以忽略,因此可以提取前12階的梅爾倒譜系數作為音頻信號的特征參數。

線性預測倒譜系數Linear Prediction Cepstrum Coefficient, LPCCM

線性預測倒譜系數一般用於表示信號的譜包絡信息。

其它特征

響度XD

響度,反映音頻信號能量大小:

\[XD(g)=\sqrt{\frac{\sum_{i=1}^{N}(x_g(n'))^2}{N}} \]

響度范圍XDR

響度范圍顧名思義,即響度的最大值減最小值。

靜音幀比例JYZBL

靜音幀是指短時能量在一定閾值內的音頻幀,音頻信號分幀后,靜音幀數量占總幀數的比重稱作該音頻段段靜音幀比例。

小波系數XBXS

通過小波變換的多次迭代,完成對輸入信號細節部分的分析。

反射系數KM

反射系數是語音識別,語音合成、低速率語音編碼等領域的重要特征。

能熵比NSB

能量值與譜熵值的比值。

能零比NLB

能量與過零率的比值:

\[NLB_i=\frac{LE_i}{DSGLL_i+cb} \]

其中,\(cb\)是一個小常數,以避免除0錯誤。

共振峰中心頻率GZFCF和共振峰帶寬GZFB

激勵進入聲道后,聲道會產生共振特性,不同截面的聲管產生的共振頻率個不相同,這些共振頻率共同組成了聲音信號的共振峰頻率。共振峰表示的是信號頻譜包絡中的極大值,該極大值在頻譜中對應的頻率即為共振峰中心頻率,該信號的共振峰中心頻率范圍即為共振峰帶寬。

音頻分類模型

常見的音頻分類模型包括決策樹、K近鄰(KNN)以及神經網絡的算法。可參見:周志華《機器學習》。

胡耀文. 音頻信號特征提取及其分類研究[D]. 昆明理工大學, 2018.

賈強. 音頻分類技術研究


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM