一、分幀
語音數據和視頻數據不同,本沒有幀的概念,但是為了傳輸與存儲,我們采集的音頻數據都是一段一段的。為了程序能夠進行批量處理,會根據指定的長度(時間段或者采樣數)進行分段,結構化為我們編程的數據結構,這就是分幀。語音信號在宏觀上是不平穩的,在微觀上是平穩的,具有短時平穩性(10---30ms內可以認為語音信號近似不變),這個就可以把語音信號分為一些短段來進行處理,每一個短段稱為一幀(CHUNK)。
二、幀移
由於我們常用的信號處理方法都要求信號是連續的,也就說必須是信號開始到結束,中間不能有斷開。然而我們進行采樣或者分幀后數據都斷開了,所以要在幀與幀之間保留重疊部分數據,以滿足連續的要求,這部分重疊數據就是幀移。
三、加窗
介紹幀移的時候我們說了,我們處理信號的方法都要求信號是連續條件,但是分幀處理的時候中間斷開了,為了滿足條件我們就將分好的幀數據乘一段同長度的數據,這段數據就是窗函數整個周期內的數據,從最小變化到最大,然后最小。
加窗即與一個窗函數相乘,加窗之后是為了進行傅里葉展開.
1.使全局更加連續,避免出現吉布斯效應
2.加窗時候,原本沒有周期性的語音信號呈現出周期函數的部分特征。
加窗的代價是一幀信號的兩端部分被削弱了,所以在分幀的時候,幀與幀之間需要有重疊。
四、傅里葉變換
對一幀信號做傅里葉變換得到的結果叫做頻譜
對語音信號處理主要的數學工具是傅里葉變換,而傅里葉變換是研究整個時間域和頻率域的關系。不過,當運用計算機實現工程測試信號處理時,不可能對無限長的信號進行測量和運算,而是取其有限的時間片段進行分析。
————————————————
版權聲明:本文為CSDN博主「phymat.nico」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/shixin_0125/article/details/99844048