波形、頻譜和語譜

本文轉載自查看原文 2017-04-21 09:31 4212 語音識別

1.聲音最直接的表示方式是波形，英文叫waveform，就是你貼的左邊那張圖。另外兩種表示方式（頻譜和語譜圖）下文再說。波形的橫軸是時間（所以波形也叫聲音的時域表示），縱軸的含義並不重要，可以理解成位移（聲帶或者耳機膜的位置）或者壓強。

當橫軸的分辨率不高的時候，語音的波形看起來就是像你貼的圖中一樣，呈現一個個的三角形。這些三角形的輪廓叫作波形的包絡（envelope）。包絡的大小代表了聲音的響度。一般來說，每一個音節會對應着一個三角形，因為一般地每個音節含有一個元音，而元音比輔音聽起來響亮。但例外也是有的，比如：1) 像/s/這樣的音，持續時間比較長，也會形成一個三角形；2) 爆破音（尤其是送氣爆破音，如/p/）可能會在瞬時聚集大量能量，在波形的包絡上就體現為一個脈沖。

下面這張圖中上方的子圖，是我自己讀單詞pass /pæs/的錄音。它的橫坐標已經被我拉開了一些，但其實這個波形是由兩個“三角形”組成的。0.05秒處那個小突起是爆破音/p/，0.05秒到0.3秒是元音/æ/，0.3到0.58秒是輔音/s/。

如果你把橫軸的分辨率調高，比如只觀察0.02s秒甚至更短時間內的波形，你就可以看到波形的精細結構（fine structure），像上圖的下面兩個子圖。波形的精細結構可能呈現兩種情況：一種是有周期性的，比如左邊那段波形（圖中顯示了兩個周期多一點），這種波形一般是元音或者輔音中的鼻音、濁擦音以及/l/、/r/等；另一種是亂的，比如右邊那段波形，這種波形一般是輔音中的清擦音。輔音中的爆破音，則往往表現為一小段靜音加一個脈沖（如pass開頭的/p/）。

2. 看完了聲音的時域表示，我們再來看它的頻域表示——頻譜（spectrum）。它是由一小段波形做傅里葉變換（Fourier transform）之后取模得到的。注意，必須是一小段波形，太長了弄出來的東西（比如你貼的右邊的圖）就沒意義了！這樣的一小段波形（通常在0.02~0.05s這樣的數量級）稱為一幀（frame）。下面是我讀的pass的波形中，以0.17s和0.4s為中心截取0.04s波形經傅里葉變換得到的頻譜。頻譜的橫軸是頻率；我錄音的采樣率用的是16000 Hz，頻譜的頻率范圍也是0 ~ 16000 Hz。但由於0 ~ 8000 Hz和8000 ~ 16000 Hz的頻譜是對稱的，所以一般只畫0 ~ 8000 Hz的部分。

頻譜跟波形一樣，也有包絡和精細結構。你把橫軸壓縮，看到的就是包絡；把橫軸拉開，看到的就是精細結構。我上面這兩張圖使得二者都能看到。

第一個頻譜是元音/æ/的頻譜，可以看到它的精細結構是有周期性的，每隔108 Hz出現一個峰。從這兒也可以看出來，語音不是一個單獨的頻率，而是由許多頻率的簡諧振動疊加而成的。第一個峰叫基音，其余的峰叫泛音。第一個峰的頻率（也是相鄰峰的間隔）叫作基頻（fundamental frequency），也叫音高（pitch），常記作 f_0 。有時說“一個音的頻率”，就是特指基頻。基頻的倒數叫基音周期。你再看看上面元音/æ/的波形的周期，大約是0.009 s，跟基頻108 Hz吻合。頻譜上每個峰的高度是不一樣的，這些峰的高度之比決定了音色（timbre）。不過對於語音來說，一般沒有必要精確地描寫每個峰的高度，而是用“共振峰”（formant）來描述音色。共振峰指的是包絡的峰。在我這個圖中，忽略精細結構，可以看到0~1000 Hz形成一個比較寬的峰，1800 Hz附近形成一個比較窄的峰。共振峰的頻率一般用 f_1 、 f_2 等等來表示。上圖中， f_1 是多少很難精確地讀出來，但 $f_2 \approx 1800 \text{Hz}$ 。當然，在2800 Hz、3800 Hz、5000 Hz處還有第三、四、五共振峰，但它們與第一、二共振峰相比就弱了許多。除了元音以外，輔音中的鼻音、濁擦音以及/l/、/r/等也具有這種頻譜，可以討論基頻和共振峰頻率（不過濁擦音一般不討論共振峰頻率）。

第二個頻譜是輔音/s/的頻譜。可以看出它的精細結構是沒有周期性的，所以就無所謂基頻。一般也不提這種頻譜的共振峰。清擦音的頻譜一般都是這樣。

2.5 在回答你的第三個問題之前，我們先來看一下聲音的第三種表示方式——語譜圖（spectrogram）。上面說過，頻譜只能表示一小段聲音。那么，如果我想觀察一整段語音信號的頻域特性，要怎么辦呢？我們可以把一整段語音信號截成許多幀，把它們各自的頻譜“豎”起來（即用縱軸表示頻率），用顏色的深淺來代替頻譜強度，再把所有幀的頻譜橫向並排起來（即用橫軸表示時間），就得到了語譜圖，它可以稱為聲音的時頻域表示。下面我就偷懶，不用Matlab自己畫語譜圖，而用Cool Edit繪制上面“pass”的語譜圖，如下：

注意橫軸是時間，縱軸是頻率，顏色越亮代表強度越大。可以觀察一下0.17s和0.4s處，是不是跟我上面畫的頻譜相似？然后再試着從這張語譜圖上讀出元音/æ/的第二共振峰頻率。

語譜圖的好處是可以直觀地看出共振峰頻率的變化。我上面讀的“pass”中只有一個單元音，如果有雙元音就會非常明顯了。比如下面這張我讀的“eye” /aɪ/，可以非常明顯地看出在元音從/a/向/ɪ/過渡的階段（0.2 ~ 0.25s）， f_1