AI大語音（二）——語音預處理

本文轉載自查看原文 2020-08-11 21:44 774 AI大語音（ASR）

1 預濾波

CODEC（所謂Codec，就是編碼-解碼器“Coder-Decoder”的縮寫。說得通俗一點，對於音頻就是A/D和D/A轉換。）前端帶寬為300-3400Hz（語音能量主要集中在250~4500Hz）。的抗混疊濾波器。

工程測量中采樣頻率不可能無限高也不需要無限高，因為一般只關心一定頻率范圍內的信號成份。為解決頻率混疊，在對模擬信號進行離散化采集前，采用低通濾波器濾除高於1/2采樣頻率的頻率成份。實際儀器設計中，這個低通濾波器的截止頻率(fc) 為：

　　截止頻率（fc）= 采樣頻率（fs） / 2．56

2 A/D轉化

8kHz的采樣頻率，12bit的線性量化精度。

一段3.5秒的語音，經過A/D轉化后共28000個點的數據。

signal: [ -919 -1314 -1049 ..., 148 136 120]

一幀25毫秒的語音，經過A/D轉化后共200個點的數據。

3 預加重

為什么要預加重？

目的是為了對語音的高頻部分進行加重，去除口唇輻射的影響，增加語音的高頻分辨率。因為高頻端大約在800Hz以上按6dB/oct (倍頻程)衰減，頻率越高相應的成分越小，為此要在對語音信號進行分析之前對其高頻部分加以提升。

一般通過傳遞函數為高通數字濾波器來實現預加重，其中a為預加重系數，0.9<a<1.0。設n時刻的語音采樣值為x(n)，經過預加重處理后的結果為y(n)）=x(n)-ax(n-1),這里取a=0.97。

傳遞函數為：

經過預加重后整體語音信號和一幀語音時域效果：

emphasized_signal: [-919. -422.57 225.58 ..., -12.05 -7.56 -11.92]

-1314-0.97*(-919)=-422.57

預加重后的語音信號頻域效果對比：

4 分幀

傅里葉變換要求輸入信號是平穩的，但是語音信號從整體上來講是不平穩的，嘴巴一動，就game over，如果把不平穩的信號作為輸入，傅里葉變換將無意義。雖然語音信號具有時變特性，但是在一個短時間范圍內（一般認為在10~30ms），其特性基本保持不變即相對穩定，因而可以將其看作是一個准穩態過程，即語音信號具有短時平穩性。，因此我們需要將語音信號進行分幀處理。

分幀一般采用交疊分段的方法，這是為了使幀與幀之前平滑過渡，保持其連續性。前一針和后一幀的交疊部分稱為幀移。幀移與幀長的比值一般取為0~1/2。

取一幀25毫秒的語音。

幀長：0.025*8KHZ=200

幀移：80

幀數：（28000-200）/80=347.5，取348幀。

補零：348*80+200=28040

28040-28000=40

多出40要補0，填充信號以確保所有幀具有相同數量的樣本，而不會截斷原始信號中的任何樣本。

5 加窗

加窗的目的是可以認為對抽樣n附近的語音波形加以強調而對波形的其余部分加以減弱。對語音信號的各個短段進行處理，實際上就是對各個短段進行某種變換或施以某種運算，其實加窗相當於把每一幀里面對應的元素變成它與窗序列對應元素的乘積。用得最多的三種窗函數是矩形窗、漢明窗(Hamming)和漢寧窗(Hanning)；以漢明窗舉例如下：

漢明窗函數如下：