聲學基礎

本文轉載自查看原文 2021-10-14 15:30 1057 音視頻

聲音的產生

聲音（Sound），是由物體的振動產生的。一切正在發聲的物體都在振動。

蜜蜂飛過時發出嗡嗡嗡的聲音，是翅膀在快速振動

人耳

另外，人耳又是如何聽到聲音的呢？大概過程是：

聲源 → 耳廓（收集聲波） → 外耳道（傳遞聲波） → 鼓膜（將聲波轉換成振動） → 聽小骨（放大振動） → 耳蝸（將振動轉換成電信號） → 聽覺神經（傳遞電信號） → 大腦（形成聽覺）

聲波

參考資料：可汗學院的《Introduction to sound》。

以揚聲器為例子，揚聲器發聲時是振膜在振動。下圖是放了塊小紙片到振膜上，振膜的振動導致小紙片“跳起了街舞”。

一般人可以感覺到20 Hz~20kHz，強度為 -5dB~130dB 的聲音信號。成年人為 30~16000Hz 之間，老年人為 50~10000Hz 之間。人是通過耳朵進行感受音波的，那為什么會稱為波呢？最直觀的可以看我們耳朵是怎么反應聲音的。當聲音經過外耳傳入中耳時，鐙骨的運動引起耳蝸內流體壓強的變化，從而引起行波沿基底膜的傳播。

耳蝸就像一個頻譜分析儀，將復雜的信號分解成為各種頻率分量。頻譜分析會比較專業一點，簡單說就是聲波通過快速 FFT 變化，由空域變為頻率，這樣讓音頻分析多了一個維度分析。

其中，在音頻中有一個非常通用並且流行的單位，分貝。分貝最初使用是在電信行業，是為了量化長導線傳輸電報和電話信號時的功率損失而開發出來的。這個單位實際上並不是實際帶物理單位的量，它原始含義其實就是兩個數值的對數比率，這兩個數值分別是測量值和參考值（也稱為基准值）

聲壓是描述聲波最基本的物理量，是媒質中的壓力與靜壓的差值。單位為 Pa。（你可以理解為大氣壓的波動值）。前面說了分貝是參考值，那他參考的是啥呢？

其實是20μPa，這個值表示人耳在1000Hz處的平均可聽閾值，或者是人耳在1000Hz處可被感知的平均最小聲壓波動值。

如何把聲音（聲源的振動）記錄下來呢？聲音屬於模擬信號，但更便於計算機處理和存儲的是數字信號（二進制編碼），所以需要將模擬信號（Analog Signal）轉成數字信號（Digital Signal）后進行存儲。這一過程，我們可以稱之為：音頻數字化。

將音頻數字化的常見技術方案是脈沖編碼調制（PCM，Pulse Code Modulation），主要過程是：采樣 → 量化 → 編碼。

采樣

模擬信號的波形是無限光滑的，可以看成由無數個點組成，由於存儲空間是相對有限的，數字編碼過程中，必須要對波形的點進行采樣。采樣（Sampling）：每隔一段時間采集一次模擬信號的樣本，是一個在時間上將模擬信號離散化（把連續信號轉換成離散信號）的過程。

采樣率

每秒采集的樣本數量，稱為采樣率（采樣頻率，采樣速率，Sampling Rate）。比如，采樣率44.1kHz表示1秒鍾采集44100個樣本。

采樣定理

根據采樣定理（奈奎斯特–香農采樣定理，Nyquist-Shannon sampling theorem）得知：只有當采樣率高於聲音信號最高頻率的2倍時，才能把采集的聲音信號唯一地還原成原來的聲音。人耳能夠感覺到的最高聲音頻率為20000Hz，因此為了滿足人耳的聽覺要求，需要至少每秒進行40000次采樣（40kHz采樣率）。這就是為什么常見的CD的采樣率為44.1kHz。電話、無線對講機、無線麥克風等的采樣率是8kHZ。

量化

量化（Quantization）：將每一個采樣點的樣本值數字化。

位深度

位深度（采樣精度，采樣大小，Bit Depth）：使用多少個二進制位來存儲一個采樣點的樣本值。位深度越高，表示的振幅越精確。常見的CD采用16bit的位深度，能表示65536（216）個不同的值。DVD使用24bit的位深度，大多數電話設備使用8bit的位深度。

編碼

編碼：將采樣和量化后的數字數據轉成二進制碼流。

其他概念

聲道（Channel）

單聲道產生一組聲波數據，雙聲道（立體聲）產生兩組聲波數據。

采樣率44.1kHZ、位深度16bit的1分鍾立體聲PCM數據有多大？

采樣率 * 位深度 * 聲道數 * 時間
44100 * 16 * 2 * 60 / 8 ≈ 10.34MB
1分鍾10.34MB，這對於大部分用戶來說是不能接受的。要想在不改變音頻時長的前提下，降低音頻數據的大小，只有2種方法：降低采樣指標、壓縮。降低采樣指標是不可取的，會導致音頻質量下降，用戶體驗變差，因此專家們研發了各種壓縮方案。

比特率

比特率（Bit Rate），指單位時間內傳輸或處理的比特數量，單位是：比特每秒（bit/s或bps），還有：千比特每秒（Kbit/s或Kbps）、兆比特每秒（Mbit/s或Mbps）、吉比特每秒（Gbit/s或Gbps）、太比特每秒（Tbit/s或Tbps）。

采樣率44.1kHZ、位深度16bit的立體聲PCM數據的比特率是多少？

采樣率 * 位深度 * 聲道數
44100 * 16 * 2 = 1411.2Kbps
通常，采樣率、位深度越高，數字化音頻的質量就越好。從比特率的計算公式可以看得出來：比特率越高，數字化音頻的質量就越好。

信噪比

信噪比（Signal-to-noise ratio，SNR，S/N，訊噪比），指信號與噪聲的比例，用於比較所需信號的強度與背景噪聲的強度，以分貝（dB）為單位。

位深度限制了信噪比的最大值，它們的關系如下表所示。

參考： https://www.cnblogs.com/mjios/p/14466420.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 心理聲學基礎和聲學基礎——2、自然大調【聲學基礎】20210918課堂筆記寫給理工科人看的樂理（一）聲學基礎和聲學基礎——3、大調的正三和弦、和聲進行和聲學基礎——4、大調的功能組、經典和聲進行【和聲學學習】屬九和弦【sphinx】中文聲學模型訓練【和聲學學習】屬七和弦傳統聲學模型之HMM和GMM