變調的方法也可以分為三類:時域法、頻域法、參量法。
時域法中,Crochiere等人於1983年提出了重采樣的方法[42],該方法是實現變速變調最簡單、最常用的方法之一。
假設重采樣因子為P/Q,其中,P為上采樣因子,Q為下采樣因子。上采樣過程就是往原始信號相鄰兩點間內插P-1個采樣點,這樣使得基音周期變為原來的P倍,頻譜壓縮為原來的1/P倍,時長變為原來的P倍,即基頻變為原來的1/P倍,音調降為原來的1/P倍,語速變為原來的1/P倍。
同樣地,下采樣過程就是每隔Q-1個點進行抽取,這樣會使得基音周期長度為原來的1/Q倍,頻譜擴展為原來的Q倍,時長變為原來的1/Q倍,即基頻變為原來的Q倍,音調升為原來的Q倍,語速變為原來的Q倍。
綜合上述兩個過程,通過P/Q倍的重采樣后,保持播放速率不變,重采樣語音語速和音調都變為原來的Q/P倍[43]。
為了實現變調不變速,可以通過各種變速不變調處理與重采樣相結合的方法[44]。如圖2-4所示,變速不變調處理使語速變為原來的P/Q倍,得到輸出信號y(n),然后對y(n)進行P/Q倍重采樣處理,這樣就得到語速正常,音調變為原來Q/P倍的最終輸出語音z(n)。
圖2-4 時長規整結合重采樣實現變調
頻域法中比較簡單的處理就是直接對信號頻譜進行插值或者抽取,實現各頻率分量的擴展或者壓縮。國內的研究者李力利、張曉蕊等人分別對頻域的插值和抽取的方法進行了研究和擴展,這種方法的缺點在於:內插會引入不需要的頻率,從而大大影響音質,變調后會有部分失真[43]。另外,比較典型的方法是利用短時傅里葉變換原理,估計出短時幀的瞬時頻率,再乘以伸縮系數進行頻譜伸縮[44]。
參量法中最具代表性的方法是基於正弦模型原理。正弦模型[45]是由Quatier等人在1980年提出,它是目前應用最廣泛的語音模型。該模型將信號看作是一系列隨時間變化的正弦信號疊加。
(5-1)
其中
、和分別表示第i個正弦信號的瞬時幅值、瞬時相位、瞬時頻率。
假設變速不變調系數為,規整后的時間=,則規整后的語音為:
其中
很顯然,時間規整后瞬時頻率仍然為,保證了音調不變,但是時間過程擴展為原來的倍。當>1時,對應降速,當<1時,對應加速。
同樣地,假設變調不變速系數為,則變調后的語音為:
其中
很顯然,變調不變速處理后,各個頻率成分隨系數拉伸或者收縮。對應於濁音,為隨時間變化的第一諧波,即基頻;其他頻率成分對應於其它諧波。當>1時,對應升調,當<1時,對應降調。
由上分析可知,基於正弦模型的變調方法最大難點在於提高諧波分析的精確度,降低參數估計的復雜度[46]。