聲音的產生
聲音(Sound),是由物體的振動產生的。一切正在發聲的物體都在振動。
蜜蜂飛過時發出嗡嗡嗡的聲音,是翅膀在快速振動
人耳
另外,人耳又是如何聽到聲音的呢?大概過程是:
聲源 → 耳廓(收集聲波) → 外耳道(傳遞聲波) → 鼓膜(將聲波轉換成振動) → 聽小骨(放大振動) → 耳蝸(將振動轉換成電信號) → 聽覺神經(傳遞電信號) → 大腦(形成聽覺)
聲波
參考資料:可汗學院的《Introduction to sound》。
以揚聲器為例子,揚聲器發聲時是振膜在振動。下圖是放了塊小紙片到振膜上,振膜的振動導致小紙片“跳起了街舞”。
一般人可以感覺到20 Hz~20kHz,強度為 -5dB~130dB 的聲音信號。成年人為 30~16000Hz 之間,老年人為 50~10000Hz 之間。人是通過耳朵進行感受音波的,那為什么會稱為波呢?最直觀的可以看我們耳朵是怎么反應聲音的。當聲音經過外耳傳入中耳時,鐙骨的運動引起耳蝸內流體壓強的變化,從而引起行波沿基底膜的傳播。
耳蝸就像一個頻譜分析儀,將復雜的信號分解成為各種頻率分量。頻譜分析會比較專業一點,簡單說就是 聲波 通過 快速 FFT 變化,由空域變為頻率,這樣讓音頻分析多了一個維度分析。
其中,在音頻中有一個非常通用並且流行的單位,分貝。分貝最初使用是在電信行業,是為了量化長導線傳輸電報和電話信號時的功率損失而開發出來的。這個單位實際上並不是實際帶物理單位的量,它原始含義其實就是 兩個數值的對數比率,這兩個數值分別是測量值和參考值(也稱為基准值)
聲壓是描述聲波最基本的物理量,是媒質中的壓力與靜壓的差值。單位為 Pa。(你可以理解為大氣壓的波動值)。前面說了分貝是參考值,那他參考的是啥呢?
其實是20μPa,這個值表示人耳在1000Hz處的平均可聽閾值,或者是人耳在1000Hz處可被感知的平均最小聲壓波動值。
如何把聲音(聲源的振動)記錄下來呢?聲音屬於模擬信號,但更便於計算機處理和存儲的是數字信號(二進制編碼),所以需要將模擬信號(Analog Signal)轉成數字信號(Digital Signal)后進行存儲。這一過程,我們可以稱之為:音頻數字化。
將音頻數字化的常見技術方案是脈沖編碼調制(PCM,Pulse Code Modulation),主要過程是:采樣 → 量化 → 編碼。
采樣
模擬信號的波形是無限光滑的,可以看成由無數個點組成,由於存儲空間是相對有限的,數字編碼過程中,必須要對波形的點進行采樣。采樣(Sampling):每隔一段時間采集一次模擬信號的樣本,是一個在時間上將模擬信號離散化(把連續信號轉換成離散信號)的過程。
采樣率
每秒采集的樣本數量,稱為采樣率(采樣頻率,采樣速率,Sampling Rate)。比如,采樣率44.1kHz表示1秒鍾采集44100個樣本。
采樣定理
根據采樣定理(奈奎斯特–香農采樣定理,Nyquist-Shannon sampling theorem)得知:只有當采樣率高於聲音信號最高頻率的2倍時,才能把采集的聲音信號唯一地還原成原來的聲音。人耳能夠感覺到的最高聲音頻率為20000Hz,因此為了滿足人耳的聽覺要求,需要至少每秒進行40000次采樣(40kHz采樣率)。這就是為什么常見的CD的采樣率為44.1kHz。電話、無線對講機、無線麥克風等的采樣率是8kHZ。
量化
量化(Quantization):將每一個采樣點的樣本值數字化。
位深度
位深度(采樣精度,采樣大小,Bit Depth):使用多少個二進制位來存儲一個采樣點的樣本值。位深度越高,表示的振幅越精確。常見的CD采用16bit的位深度,能表示65536(216)個不同的值。DVD使用24bit的位深度,大多數電話設備使用8bit的位深度。
編碼
編碼:將采樣和量化后的數字數據轉成二進制碼流。
其他概念
聲道(Channel)
單聲道產生一組聲波數據,雙聲道(立體聲)產生兩組聲波數據。
采樣率44.1kHZ、位深度16bit的1分鍾立體聲PCM數據有多大?
采樣率 * 位深度 * 聲道數 * 時間
44100 * 16 * 2 * 60 / 8 ≈ 10.34MB
1分鍾10.34MB,這對於大部分用戶來說是不能接受的。要想在不改變音頻時長的前提下,降低音頻數據的大小,只有2種方法:降低采樣指標、壓縮。降低采樣指標是不可取的,會導致音頻質量下降,用戶體驗變差,因此專家們研發了各種壓縮方案。
比特率
比特率(Bit Rate),指單位時間內傳輸或處理的比特數量,單位是:比特每秒(bit/s或bps),還有:千比特每秒(Kbit/s或Kbps)、兆比特每秒(Mbit/s或Mbps)、吉比特每秒(Gbit/s或Gbps)、太比特每秒(Tbit/s或Tbps)。
采樣率44.1kHZ、位深度16bit的立體聲PCM數據的比特率是多少?
采樣率 * 位深度 * 聲道數
44100 * 16 * 2 = 1411.2Kbps
通常,采樣率、位深度越高,數字化音頻的質量就越好。從比特率的計算公式可以看得出來:比特率越高,數字化音頻的質量就越好。
信噪比
信噪比(Signal-to-noise ratio,SNR,S/N,訊噪比),指信號與噪聲的比例,用於比較所需信號的強度與背景噪聲的強度,以分貝(dB)為單位。
位深度限制了信噪比的最大值,它們的關系如下表所示。