語音識別學習階段性總結(一)


一. 對語音識別總體認識的簡單敘述

  語音識別大體上就是將人類的語音信號輸入系統,識別出對應的文字。語音合成則是一個相反的過程,給出文本,輸入系統后能夠輸出文字對應的語音信號。

  語音識別是一個大方向,細分起來包括了聲紋識別、關鍵詞識別、語音信號處理等方向,還包括了很重要的連續語音識別。而語音合成方面,主要學習的是歌聲合成的相關知識。

  語音識別的過程大體可以分為兩個階段,前一階段主要是語音信號的處理,包括語音信號的預處理,語音信號的分析(時域分析、時頻域分析、倒譜域分析),語音信號的特征提取(主要是關於MFCC的工作,為后續的建模等工作做准備);后一階段則主要是模型訓練和語音識別階段,模型的訓練主要是使用已有的訓練數據,對給出的模型進行訓練,通過一次次訓練不斷優化模型中的參數,使得整個系統更加接近理想的效果。語音模型的選擇多種多樣,包括HMM,GMM,DNN,CNN等,目前接觸到的包括HMM,GMM,DNN,而CNN我暫時沒有學習到。

 

三.語音識別的大體過程總結

  1.語音信號預處理

  語音信號是一個連續的信號,要想輸入系統進行處理,首先要對語音信號進行預處理,比如預加重處理,分幀加窗處理等,目的則是為了提高信號信噪比,便於后續處理。

  2. 語音信號分析

  語音識別不是一個簡單的輸入語音並直接輸出文本的系統,語音信號輸入的時候要進行一系列處理。語音信號具有長時時變短時平穩的特征。對於語音信號的分析包括了時域分析、時頻域分析,倒譜域分析。在這里對於因信號進行處理的目的,是為了得到語音信號的時域或者時頻域特征,便於畫出功率譜。這一步得到的功率譜,可以直接用於下一步的特征提取(比如MFCCs)。

  時域分析:

  時域分析能夠提取到的特征包括短時平均能量,短時平均過零率,短時平均幅度,短時自相關函數。語音信號是長時時變短時平穩的信號,所以這些特征都傾向於短時信號特征,這些特征在端點檢測、靜音判斷、清濁音切分等方面使用廣泛。

  時頻域分析:

  語音處理過程中,除了時域特征之外,頻率域特征或者二者結合起來的時頻特征對后續工作也很重要。傅里葉變換是這一部分很重要的知識點。

  傅里葉變換可以很好的表現出信號的頻率域特征,但是丟失了時間信息,因此,對傅里葉變換進行優化,提出了短時傅里葉變換(STFT),在傅里葉變換的基礎上,對信號分幀加窗,逐個處理,能夠得到比較好的時域和頻域特征信息。另外,針對突變的、非平穩信號和離散信號,一些論文中也提出了其他的信號分析方法,比如拉普拉斯變換(在FT基礎上引入了衰減因子)、Z變換(適合處理離散信號)、小波變換(將FT中無限長的三角基轉換成會衰減的小波基)。

  3.特征提取。

  語音信號是十分復雜的連續信號,而語音信號的特征參數能夠很好的表達語音信號,也就能很好的表達語音信號所攜帶的信息,因此,對語音信號的處理,必須首先提取語音信號的特征參數。這樣,通過處理數據量很小的特征參數,就能得到與直接處理復雜且不好分析的語音信號相同的效果。語音信號的特征參數有很多,主要學習了梅爾倒譜系數(MFCC參數)的提取,MFCC在實際應用中很多,主要是因為梅爾頻率比較符合人類的聽覺特性。

  特征提取成功,也就為后續的模型訓練打下了基礎。模型訓練不可能直接使用復雜不平穩法語音信號,而是使用語音信號的特征參數。在有了模型的前提下,在訓練階段,把語音信號經過1,2,3步的處理,得到指定的 N 維特征參數並輸入到模型當中,通過多次迭代,能得到不斷優化的模型參數。識別階段,待識別語音信號經過1 2 3步的處理,得到指定的 N 維參數並輸入到模型當中,能得到識別結果。

  4. 模型訓練與語音識別

  語音識別的模型有很多,經典的包括HMMGMM,另外人工神經網絡的興起使得DNNCNN得到了廣泛的使用。這些模型都是通過給出初始模型,使用訓練數據不斷的優化模型參數,最終得到一個比較滿意的識別模型。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM