語音信號語譜圖相關


語音信號語譜圖相關

        語譜圖就是語音頻譜圖,一般是通過處理接收的時域信號得到頻譜圖,因此只要有足夠時間長度的時域信號就可。專業點講,那是頻譜分析視圖,如果針對語音數據的話,叫語譜圖。語譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數據能量。由於是采用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。

       為了更清楚的理解語譜圖,我們分四步走:

    1. 看時域圖

    2. 看頻域圖

    3. 看時域圖與頻域圖的關系

    4. 看語譜圖

1.時域圖

        自變量是時間,即橫軸是時間,縱軸是信號的變化(振幅)。其動態信號x(t)是描述信號在不同時刻取值的函數。

2.頻域圖

        簡單地說,任何信號(當然要滿足一定的數學條件,但是說多了又不好懂了,所以先不提),都可以通過傅立葉變換而分解成一個直流分量(也就是一個常數)和若干個(一般是無窮多個)正弦信號的和。每個正弦分量都有自己的頻率和幅值,這樣,以頻率值作橫軸,以幅值作縱軸,把上述若干個正弦信號的幅值畫在其所對應的頻率上,就做出了信號的幅頻分布圖,也就是所謂頻譜圖 ,另外還有相頻分布 。

3.時域圖與頻域圖的關系(FFT)

1)正弦波相關

        如下面靜態圖所示,正弦波就是一個圓周運動在一條直線上的投影。如下面動圖所示,頻域的基本單元也可以理解為一個始終在旋轉的圓。

2)一個矩形波的時域與頻域(FFT過程)

        下圖為任意一個波形在時域和頻域的關系:

3)相位譜相關

        圖中, 小紅點是距離頻率軸最近的波峰, 我們將紅色的點投影到下平面,投影點我們用粉色點來表示。當然,這些粉色的點只標注了波峰距離頻率軸的距離,並不是相位。時間差並不是相位差。如果將全部周期看作2Π或者360度的話,相位差則是時間差在一個周期中所占的比例。我們將時間差除周期再乘 2Π,就得到了相位差。

4)總結

        最后,總結一下,下圖為一個矩形波在時域、頻域和相位的表現形式:

        注:其中一系列正弦波形合成一個時域的矩形波,而當中的橫穿它們的黑線為我們作相位譜的頻率軸。

4.語譜圖

1)語譜圖形成過程

        對於一段語音信號x(t),

    1. 首先分幀,變為x(m,n)(m為幀的個數,n為幀長);

    2. 然后做FFT變換,得到X(m,n);

    3. 作周期圖Y(m,n)(Y(m,n) = X(m,n) * X(m,n)T);

    4. 接着取10 log10(Y(m,n)),把m根據時間變換一下刻度M,n根據頻率變化一下刻度N;

    5. 最后將(M,N, 10 log10(Y(m,n))) 畫成二維圖就是語譜圖了

2)第1、2步,分幀與FFT

        這里,這段語音被分為很多幀,每幀語音都對應於一個頻譜(通過短時FFT計算),頻譜表示頻率與能量的關系。在實際使用中,頻譜圖有三種,即線性振幅譜、對數振幅譜、自功率譜 。 (對數振幅譜中各譜線的振幅都作了對數計算,所以其縱坐標的單位是dB(分貝) 。 這個變換的目的是使那些振幅較低的成分相對高振幅成分得以拉高,以便觀察掩蓋在低幅噪聲中的周期信號)。

3)第3步,作周期圖

        我們先將其中一幀語音的頻譜通過坐標表示出來,如上圖左。現在我們將左邊的頻譜旋轉90度。得到中間的圖。然后把這些幅度映射到一個灰度級表示(也可以理解為將連續的幅度量化為256個量化值),0表示黑,255表示白色。幅度值越大,相應的區域越黑。這樣就得到了最右邊的圖。

4)第4、5步,生成語譜圖

        我們可以看出,之所以將其變成灰度級表示,是為了添加時間軸,讓分幀的不連續性消失,起到將其用二維表示出三維的作用。

5)語譜圖分類

  • 窄帶語譜圖

  • 寬帶語譜圖

1.窄帶語譜:

       從結果圖中可以清楚看到諧波的結構,頻率分辨率非常好,但是時間上的分辨率就不理想,窄帶語譜圖,頻率分辨率太過精細,不能很好體現出共振峰的大致位置,即反映不出基波的變化特性。

2.寬帶語譜:

        與窄帶語譜圖相反,寬帶語譜圖的時間分辨率很好,頻率分辨率較低,不能很好反映聲音的紋理特性,反映了頻譜的時變特性,能很好分辨出共振峰的大致位置,但分辨不清諧波結構。

3.從寬帶與窄帶語譜圖中看基因頻率和共振峰

        基音周期表示聲帶的震動周期,每隔這么長時間(震動周期),有一個氣流通過,“每隔”就體現了周期性,這就是基音周期,那么譜圖上就應該有這個頻率的信號分量,而且這個頻率的幅度(能量)不應該很小,因為每隔一段時間“就有”一團能量通過聲帶。所以基音頻率所在的成分在窄帶語譜圖上應該是所有橫條紋中頻率范圍最低的那條。

        在窄帶語譜圖中,用虛線框框住的部分就表示基音頻率成分,與其在同一水平線上的條紋都表示該時刻的基音頻率成分,這條條紋對應的縱軸刻度值就表示基音頻率。從窄帶語譜圖的小圖可估計基音頻率大約在250Hz左右,基音頻率略有波動,0.5s處大約是240Hz。其他橫條紋就是各次諧波,這些諧波中有些地方顏色比同時刻其附近其他橫條紋顏色要深,這些顏色深的條紋表示共振峰。有些時刻,顏色較局部附近深的條紋不止一條,這些深色條紋組成了各次共振峰,如第一、第二、第三共振峰。

        在寬帶語譜圖中,它的基音頻率和共振峰就不清晰了。但是其仍可以看出基音周期,寬帶語譜圖的小圖具有明顯的豎線,兩條豎線之間的時間就表示基音周期。在0.44s到0.54s時間段內大約有25條豎線,即24個間隔,則基音周期可估計為(0.54-0.44)/24=4.17ms,則基音頻率估計為240Hz。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM