論文筆記:語音情感識別(五)語音特征集之eGeMAPS,ComParE,09IS,BoAW


一:LLDs特征和HSFs特征
(1)首先區分一下frame和utterance,frame就是一幀語音。utterance是一段語音,是比幀高一級的語音單位,通常指一句話,一個語音樣本。utterance由多幀語音組成,通常對一個utterance做分幀來得到多幀信號。
(2)LLDs(low level descriptors)LLDs指的是手工設計的一些低水平特征,一般是在一幀語音上進行的計算,是用來表示一幀語音的特征。
(3)HSFs(high level statistics functions)是在LLDs的基礎上做一些統計而得到的特征,比如均值,最大值等等。HSFs是對utterance上的多幀語音做統計,所以是用來表示一個utterance的特征。
(4)后面講的一些特征集,是由一些專家設計的一些特征,包括了LLDs和HSFs。


二:GeMAPS特征集
(1)GeMAPS特征集總共62個特征,這62個都是HSF特征,是由18個LLD特征計算得到。下面先介紹18個LLD特征,然后介紹62個HSF特征。這里只簡單介紹每個特征的概念,不涉及具體計算細節。
(2)18個LLD特征包括6個頻率相關特征,3個能量/振幅相關特征,9個譜特征。
(3)基音F0的概念:先理解一個常用的概念,基音,通常記作F0(F0一般也指基音頻率),一般的聲音都是由發音體發出的一系列頻率、振幅各不相同的振動復合而成的。這些振動中有一個頻率最低的振動,由它發出的音就是基音,其余為泛音。
(4)6個頻率相關特征包括:Pitch(log F0,在半音頻率尺度上計算,從27.5Hz開始);Jitter(單個連續基音周期內的偏差,偏差衡量的是觀測變量與特定值的差,如果沒有指明特定值通常使用的是變量的均值);前三個共振峰的中心頻率,第一個共振峰的帶寬。
(5)3個能量/振幅的特征包括:Shimmer(相鄰基音周期間振幅峰值之差),Loudness(從頻譜中得到的聲音強度的估計,可以根據能量來計算),HNR(Harmonics-to-noise)信噪比。
(6)9個譜特征包括,Alpha Ratio(50-1000Hz的能量和除以1-5kHz的能量和),Hammarberg Index(0-2kHz的最強能量峰除以2-5kHz的最強能量峰),Spectral Slope 0-500 Hz and 500-1500 Hz(對線性功率譜的兩個區域0-500 Hz和500-1500 Hz做線性回歸得到的兩個斜率),Formant 1, 2, and 3 relative energy(前三個共振峰的中心頻率除以基音的譜峰能量),Harmonic difference H1-H2(第一個基音諧波H1的能量除以第二個基音諧波的能量),Harmonic difference H1-A3(第一個基音諧波H1的能量除以第三個共振峰范圍內的最高諧波能量)。
(7)對18個LLD做統計,計算的時候是對3幀語音做symmetric moving average。首先計算算術平均和coefficient of variation(計算標准差然后用算術平均規范化),得到36個統計特征。然后對loudness和pitch運算8個函數,20百分位,50百分位,80百分位,20到80百分位之間的range,上升/下降語音信號的斜率的均值和標准差。這樣就得到16個統計特征。上面的函數都是對voiced regions(非零的F0)做的。對Alpha Ratio,Hammarberg Index,Spectral Slope 0-500 Hz and 500-1500 Hz做算術平均得到4個統計特征。另外還有6個時間特征,每秒loudness峰的個數,連續voiced regions(F0>0)的平均長度和標准差,unvoiced regions(F0=0)的平均長度和標准差,每秒voiced regions的個數。36+16+4+6得到62個特征。


三:eGeMAPS特征集
(1)eGeMAPS是GeMAPS的擴展,在18個LLDs的基礎上加了一些特征,包括5個譜特征:MFCC1-4和Spectral flux(兩個相鄰幀的頻譜差異)和2個頻率相關特征:第二個共振峰和第三個共振峰的帶寬。
(2)對這擴展的7個LLDs做算術平均和coefficient of variation(計算標准差然后用算術平均規范化)可以得到14個統計特征。對於共振峰帶寬只在voiced region做,對於5個譜特征在voiced region和unvoiced region一起做。
(3)另外,只在unvoiced region計算spectral flux的算術平均,然后只在voiced region計算5個譜特征的算術平均和coefficient of variation,得到11個統計特征。
(4)另外,還加多一個equivalent sound level 。
(5)所以總共得到14+11+1=26個擴展特征,加上原GeMAPS的62個特征,得到88個特征,這88個特征就是eGeMAPS的特征集。


四:ComParE特征集
(1)ComParE,Computational Paralinguistics ChallengE,是InterSpeech上的一個挑戰賽,從13年至今(2018年),每年都舉辦,每年有不一樣的挑戰任務。
(2)從13年開始至今(2018年),ComParE的挑戰都會要求使用一個設計好的特征集,這個特征集包含了6373個靜態特征,是在LLD上計算各種函數得到的,稱為ComParE特征集。
(3)可以通過openSmile開源包來獲得,另外前面提到的eGeMAPS也可以用openSmile獲得。


五:2009 InterSpeech挑戰賽特征
(1)前面說的6373維特征集ComparE是13年至今InterSpeech挑戰賽中用的。(2)有論文還用了09年InterSpeech上Emotion Challenge提到的特征,總共有384個特征,計算方法如下。
(3)首先計算16個LLD,過零率,能量平方根,F0,HNR(信噪比,有些論文也叫vp,voice probability 人聲概率),MFCC1-12,然后計算這16個LLD的一階差分,可以得到32個LLD。
(4)對這32個LLD應用12個統計函數,最后得到32x12 = 384個特征。
(5)同樣可以通過openSmile來獲得。
(6)另外還有2010年InterSpeech的Paralinguistic Challenge上的特征,稱為10IS,共有1582維特征。也可以從openSmile中獲得,這工具挺好的,可以幫你提取很多特征,建議使用。


六:BoAW
(1)BoAW,bag-of-audio-words,是特征的進一步組織表示,是根據一個codebook對LLDs做計算得到的。這個codebook可以是k-means的結果,也可以是對LLDs的隨機采樣。
(2)在論文會看到BoAW特征集的說法,指的是某個特征集的BoAW形式。比如根據上下文“使用特征集有ComparE和BoAW”,可以知道,這樣的說法其實是指原來的特征集ComparE,和ComparE經過計算后得到的BoAW表示。
(3)可以通過openXBOW開源包來獲得BoAW表示。


七:YAAFE特征
(1)使用YAAFE庫提取到的特征,具體特征見YAAFE主頁。


八:參考資料
[1] 論文:eGeMAPS特征集(2016 IEEE trans on Affective Computing)
[2] 論文:2013 InterSpeech ComparE挑戰賽(2013 InterSpeech)
[3] 論文:2009 InterSpeech情感挑戰(2009 InterSpeech)
[4] 論文:BoAW用於語音情感識別(2016 InterSpeech)
[5] YAAFE主頁


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM