語音模型--產生模型與聽覺模型


轉眼間,已經工作了九個月,從一開始公司的忙碌到壓力,再到如今暫時的穩定,空了就想起了當初申請博客園的初衷,分享創造進步。

出於很多的機緣,接觸語音相關知識,工作九個月,都是在圍繞着語音信號處理展開,比如回聲消除、噪聲抑制、網絡丟包補償等工作。

想想總結還是先從最基本的開始,先從基本的語音模型開始博客園之旅。

 

1語音生成系統

     人的發音系統的器官,主要有:聲道和聲帶。

     聲道:從聲帶到嘴唇的呼吸通道,聲音的信道,決定着一個人的聲紋。

     聲帶:聲音的激勵,開啟閉合一次形成濁音的激勵脈沖。其頻率為60-450hz,也稱為基因頻率。

     人聲按照聲帶的振動與否,分為濁音與清音。

人聲的發音原理:

  1. 聲帶開啟與閉合,產生一定頻率的激勵信號,通過聲道,產生濁音。
  2. 聲帶不振動,由聲道(包括口腔、嘴唇等)發生變化產生的聲音,並不是聲帶振動引起的聲音,為清音。

2 語音生成模型

2.1 語音激勵模型

1)  濁音激勵模型

      聲帶不斷的張開與關閉,產生了間歇的脈沖波,也就是濁音的激勵信號。其數學表達式為:

      

     其時域的波形為以基因周期為周期的斜三角脈沖波。

2)清音的激勵模型

    發清音時,聲道發生形狀變化形成的聲音,可以用白噪聲作為激勵。

    單獨的將語音激勵分為清音和濁音兩種是不全面的,很多時候是清音與濁音混起來之后的混合激勵。

2.2     聲道模型

    元音:激勵順利的通過聲道,產生元音;

    輔音:激勵通過聲道時,聲道發生變化發出的聲音為輔音。

     聲道可以看成是一個諧振腔,聲道模型可以看成是一個共振峰模型,共振峰就是諧振腔中的諧振頻率。諧振腔可以改變原本語音的頻譜特性,在諧振頻率上能量加強,其他頻率上能量衰弱,有一定的濾波作用。能夠決定元音的音質,也反映了聲腔的頻率特性。

     一般元音,可以用前三個共振峰去表示;而對於輔音、鼻音等則需要至少5個共振峰去表示。下圖為輔音和元音,可以看出其共振峰的特性。

一般元音可以用全極點模型來模擬,因為元音發音的口腔相對穩定,一個音的后半部分具有一定的可預測性,其模型的傳輸函數為:

 

而輔音等則需要零極點模型來進行模擬,因為輔音或者鼻音等發音時,口腔會帶來一定的突變,因此,需要零極點模型去進行模擬:

2.3語音信號產生的數學模型

將激勵模型與聲道模型進行級聯,可以得到整個語音信號的數據模型,即:

     上圖為輔音s,和元音o,的分別的波形圖與語譜圖。

     S為輔音,從時域圖和語譜圖分別可以看出輔音具有隨機性,類似隨機噪聲,其頻譜也比較平坦,任何頻域都有分量;

     而o為元音,從時域圖上可以看出,其具有一定的短時周期性,從波形上可以看出語音發聲模型中的諧振腔的諧振特性,從語譜圖上可以看出,在低頻端有一層一層的高能量的形狀,這也就驗證了語音模型使用共振峰模型的語音,其對低頻的一些頻率產生共振,形成共振峰,最低的共振峰的頻率則是基因頻率,而高處的共振峰則是共振腔中其他的諧振頻率。從語譜圖上可以看出,人的聲音在低中頻以下能量比較集中,這也反映了人的聲道共振峰范圍的特性。

     從元音o的語譜圖可以看出,在高於800hz以上的頻率,按6db/倍頻 的情況衰減。導致整個頻譜很快衰減,在語音編解碼中,為了方便編解碼,采用了預加重的方法,防止高頻倍頻的衰減,使得頻譜比較平坦,方便處理。

     語譜圖上這些共振峰的組合也叫“聲紋”,不同人有不同的聲紋,因此可以利用這個特性來進行說話人識別。

2      聽覺系統

人耳感知范圍:

  1. 能夠感知20hz與20khz的頻率范圍;幅度能夠感知在-5db-130db。
  2. 可聞閾值(安靜閾值),與頻率有關,就是可以聽到最低的聲音幅度。
  3. 隱蔽效應:在強信號附近,聽不到弱的信號。
  4. 掩蔽閾值:可以掩蔽的最大聲壓閾值。

從上圖可以看出:

  1. 不同的頻率對應的可聞閾值也不同,這一點,被應用到語音編解碼中,處理量化噪聲中,只要將量化噪聲限定在可聞閾值以下就可以。這也就從一定程度上決定了量化的程度。
  2. 掩蔽效應,可以分為時域掩蔽效應和頻域掩蔽效應,圖中顯示的是頻域的掩蔽效應。

          頻域掩蔽:低頻更容易掩蔽高頻信號。

          時域掩蔽效應:分為向前掩蔽與向后掩蔽,向前掩蔽一般時間比較短,為5-20ms;向后掩蔽時間比較長,一般是50-300ms。

      3. 耳蝸的頻率感知:耳蝸對不同的頻率具有不同的辨識度。從下圖可以看出,耳蝸里面感知低頻的面積比高頻的面積更廣,這也就說明了人耳對低頻的識別率比高頻的      識別率更高的原因。

      4. 臨界帶寬:一個純音可以被以它為中心頻率並且具有一定頻帶寬度的連續噪聲所掩蔽,如果在這一頻帶寬度內的噪聲功率等於該純音的功率,則該純音剛好處於可以被聽到的臨界狀態,就稱這一頻帶寬度為臨界帶寬。人耳對低頻信號的分辨率較高,而對高頻信號的分辨率相對低。因為臨界帶寬可以更好地反映人耳對信號頻率的感知特性,所以對人耳的聽覺特性的研究都是建立在臨界帶寬的基礎上的。這也就是為何很多語音信號處理時,對數據進行分子帶處理。

 

語音編解碼雖然比較成熟,但是可以說是語音方向的精華所在,也是語音處理的工具箱,熟悉了可以重用,因此是以后重點學習的對象之一。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM