音頻基礎


1.1 聲音的產生

相對於視頻,可觀察這個現象.音頻在學習過程,就缺乏了想象的空間.但是如果從原理出發,就不會那么難了.

聲音是什么?
聲音是波,靠物體的振動產生

1.2 聲波的3要素

聲波的三要素,是頻率,振幅,波形.頻率代表音階的高低,振幅代表響度,波形則代表音色.

波長與頻率成反比,即λ=u/f,其中λ是波長,u是波速,f是頻率。

  • 頻率越高,波長就會越短.而低頻聲響的波長則較長.所以這樣的聲音更容易繞過障礙物,能量衰減就越小.聲音就會傳播的越遠.
  • 響度,就是能量大小的反饋.用不同的力度敲打桌面,聲音的大小勢必發生變換.在生活中,我們用分貝描述聲音的響度.
 

==小貼士==

  • 分貝(decibel),是度量聲音的強度單位,常用dB表示.是由美國發明家亞歷山大.格雷厄姆.貝爾 名字命名的.
    長期在夜晚接受50 分貝的噪音, 容易導致心血管疾病; 55 分貝, 會對兒童學習產生負面影響; 60分貝, 讓人從睡夢中驚醒; 70 分貝,心肌梗死的發病率增加30%左右; 超過110 分貝, 可能導致永久性聽力損傷.
  • 音色,在同樣的頻率和響度下,不同的物體發出的聲音不一樣.比如鋼琴和古箏聲音就完全不同.波形的形狀決定了聲音的音色.因為不同的介質所產生的波形不同.就會產生不一樣的音色.

1.3 聲音傳播

聲音的發生,來源於振動.人類說話,從聲帶振動發生聲音之后,經過口腔,顱腔等局部區域的反射,在經過空氣傳播到別人耳朵中.這是我們說話到聽到的過程.
聲音的傳播,可以通過空氣,液體,固定傳播.介質不同,會影響聲音的傳播速度.

  • 吸音棉:通過聲音反射而產生的嘈雜感,吸音材料選擇使用可以衰減入射音源的反射能量,從而對原有聲音的保真效果.比如錄音棚牆壁上就會使用吸音材質
  • 隔音:主要解決聲音穿透而降低主體空間的吵鬧感,隔音棉材質可以衰減入射聲音的透射能量.從而達到主體空間安靜狀態,比如KTV牆壁上就會安裝隔音棉材料.

二.數字音頻

2.1 模擬信號數字化過程

將模擬信號轉換為數字信號的過程,分別是采樣,量化和編碼.

音頻采樣

對模型信號進行采樣,采樣可以理解為在時間軸上對信號進行數字化.
而,根據奈斯特定理(采樣定理),按比聲音最高頻率高2倍以上的頻率對聲音進行采樣.這個過程稱為AD轉換.

比如,前面提到高質量音頻信號,其頻率范圍是20Hz-20KHz.所以采樣頻率一般是44.1KHz.這樣可以保證采樣聲音達到20KHz也能被數字化.而且經過數字化處理后的聲音,音質也不會降低.44.1KHZ,指的是1秒會采樣44100次

奈斯特定理(采樣定理) 資料

量化

量化,指的是在幅度軸上對信號進行數字化.簡單的說,就是聲音波形的數據是多少位的二進制數據,通常用bit做單位.比如16比特的二進制信號來表示聲音的一個采樣.它的取值范圍[-32768,32767].一共有65536個值.如16bit、24bit。16bit量化級記錄聲音的數據是用16位的二進制數,因此,量化級也是數字聲音質量的重要指標。我們形容數字聲音的質量,通常就描述為24bit(量化級)、48KHz采樣,比如標准CD音樂的質量就是16bit、44.1KHz采樣.

既然每個量化都是一個采樣,那么聲音這么多采樣,該如何將這些數據存儲起來?

編碼

什么叫編碼?
按照一定格式記錄采樣和量化后的數據.

音頻編碼的格式有很多種,而通常所說的音頻裸數據指的是脈沖編碼調制(PCM)數據.
如果想要描述一份PCM數據,需要從如下幾個方向出發:

  • 量化格式(sampleFormat)
  • 采樣率(sampleRate)
  • 聲道數(channel)

舉例:
以CD音質為例,量化格式為16bite,采樣率為44100,聲道數為2.這些信息描述CD音質.那么可以CD音質數據,比特率是多少?
44100 * 16 * 2 = 1378.125kbps

那么一分鍾的,這類CD音質數據需要占用多少存儲空間?
1378.125 * 60 /8/1024 = 10.09MB

如果sampleFormat更加精確或者sampleRate更加密集,那么所占的存儲空間就會越大,同時能夠描述的聲音細節就會更加精確.

存儲在這些二進制數據即可理解為將模型信號轉化為數字信號.那么轉為數字信號之后,就可以對這些數據進行存儲\播放\復制獲取其他任何操作.

 

參考:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM