plp特征提取原理和方法


LPC(Linear Predictive Coding,線性預測分析):由於語音信號的發音特性,提取特征后的幀與幀之間是不獨立的,那么我們可以用前面的幀或后面的幀預測當前幀。所求的的預測系數就是我們要用到的特征。線性預測分析中,我們可以用一個全極點濾波器為聲道響應函數建模,

即y(z)=x(z).H(z).以最小化預測誤差為目標優化系數a,就可以得到特征系數。通常采用自相關方法,利用durbin算法求解方程。這里給出參數計算公式:

1)       給定一個窗內的采樣點信號{sn,n=1,N},它的自相關序列計算公式為:

,i=0,p.

2)       濾波器還有一個反射系數{ki},可以理解為聲道的反射系數,和預測誤差E,初始化為r0,設{kj(i-1)}和{aj(i-1)}是i-1階濾波器的反射系數和預測系數,關於i階濾波器的反射系數和預測系數可以通過三個步驟求得:

1、

,j=1,i-1

2、

3、

4、

,j=1,i-1

5、

這樣就得到了p個預測系數,我們也可以用p個反射系數ki,i=1,p當做特征。在HTK中設置參數為:

另外,也可以求預測倒譜系數作為特征。推導如下:

 

用倒譜系數是因為使用DCT變換,將系數去相關,那么就可以利用對角協方差矩陣去描述狀態的高斯分布。倒譜特征的維數應與預測系數個數相同,HTK中有參數NUMCEPS設定。

plp(Perceptual Linear Predict ive,感知線性預測):是一種基於聽覺模型的特征參數。該特征參數是全極點模型預測多項式的一組系數[ 2] ,等效於一種LPC( Linear Pr edict ion Coef f icient , 線性預測系數) 特征。它們的不同之處是PLP 技術將人耳聽覺試驗獲得的一些結論, 通過近似計算的方法進行了工程化處理, 應用到頻譜分析中, 將輸入的語音信號經聽覺模型處理后所得到的信號替代傳統的LPC 分析所用的時域信號。經過這樣處理后的語音頻譜考慮到了人耳的聽覺特點, 因而有利於抗噪語音特征提取。

PLP 技術主要在三個層次上模仿了人耳的聽
覺感知機理:
1) 臨界頻帶分析處理;
2) 等響度曲線預加重;
3) 信號強度- 聽覺響度變換。
PLP 特征提取步驟如圖所示。

 

 

1 頻譜分析
語音信號經過采樣、加窗、離散傅立葉變換后,
取短時語音頻譜的實部和虛部的平方和, 得到短時
功率譜
P ( f ) = Rx [ X ( f ) ]2 + I m [ X ( f ) ]2 ------ ( 1)
2 臨界頻帶分析
臨界頻帶的划分反映了人耳聽覺的掩蔽效應,
是人耳聽覺模型的體現。利用公式
Z( f ) = 6ln{ f / 600+ [ ( f / 600)2 + 1] 0.5 }------- ( 2)
將頻譜P ( f ) 的頻率軸f 映射到Bark 頻率Z, 總共
得到17 個頻帶。
這17 個頻帶中每個頻帶內的能量譜與式( 3) 的加權系數相乘, 求和后得到臨界帶寬聽覺譜θ( k) 。

 

 

其中Z0 ( k ) 表示第k 個臨界帶聽覺譜的中心頻率.

3 等響度預加重
用模擬人耳大約40 dB 等響曲線E( f ) 對θ( k)
進行等響度曲線預加重, 即
Γ( k) = E[f0(k)]θ( k) , ( k = 1, 2, ..., 17) ------ ( 5)
f 0 ( k ) 表示第k 個臨界帶聽覺譜的中心頻率所對應的頻率( 單位為Hz) 。其中
E[ f0(k)] =(f0(k)2 + 1. 44 * 106 )f0(k)4/( f0(k)2 + 1.6*105)2*( f0( k)2 + 9.61*109)------ ( 6)
4 強度-響度轉換
為了近似模擬聲音的強度與人耳感受的響度間的非線性關系, 進行強度-響度轉換
θ(k) = Γ( k )0.33 ------- ( 7)
經過離散傅里葉反變換后, 用德賓算法計算12階全極點模型, 並求出16 階倒譜系數, 最后的結果即為PLP 特征參數。

 

參考文獻:噪聲條件下的語音特征PLP 參數的提取;魏 艷, 張雪英;太原理工大學學報第40卷第3期。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM