MP3的采樣率和比特率


  我們聽mp3,看電影都會注意到兩個參數,常見的有采樣率44.1KHz,比特率192Kbps,那么什么是采樣率,什么是比特率?他們是什么關系呢?下面就我們就來簡單做個解釋:

  把模擬音頻信號轉成數字音頻信號的過程稱作采樣,簡單地說就是通過波形采樣的方法記錄1秒鍾長度的聲音,需要多少個數據點。eg:44.1KHz采樣率的聲音就是要花費44000個數據點來描述1秒鍾的聲音波形。原則上采樣率越高,聲音質量越好;采樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級;22.05 KHz只能達到FM廣播的聲音品質,44.1KHz則是理論上的CD音質界限,48KHz則已達到DVD音質了。

  采樣率是指將聲音(模擬信號)轉換成mp3(數字信號)時的采樣頻率,也就是單位時間內采樣多少點數據。(一個采樣點數據有8(甚至更多)個比特。)

  比特率是指每秒傳送的比特(bit)數。單位為 bps(Bit Per Second),比特率越高,傳送的數據越大,音質越好。

  可以這樣講,采樣率和比特率就像是坐標軸上的橫縱坐標。橫坐標的采樣率表示了每秒鍾的采樣數據點。縱坐標的比特率表示了用數字量來量化模擬量的時候的精度。

  采樣率類似於動態影像的幀數,比如電影的采樣率是24赫茲,PAL制式的采樣率是25赫茲,NTSC制式的采樣率是30赫茲。當我們把采樣到的一個個靜止畫面再以采樣率同樣的速度回放時,看到的就是連續的畫面。同樣的道理,把以44.1kHZ采樣率記錄的CD以同樣的速率播放時,就能聽到連續的聲音。顯然,這個采樣率越高,聽到的聲音和看到的圖像就越連貫。[當然,人的聽覺和視覺器官能分辨的采樣率是有限的,基本上高於44.1kHZ采樣的聲音,絕大部分人已經覺察不到其中的分別了。]

  而聲音的位數相當於畫面的顏色數,表示每個取樣的數據量,當然數據量越大,回放的聲音越准確,不至於把開水壺的叫聲和火車的鳴笛混淆。同樣的道理,對於畫面來說就是更清晰和准確,不至於把血和西紅柿醬混淆。[不過受人的器官的機能限制,16位的聲音和24位的畫面基本已經是普通人類的極限了,更高位數就只能靠儀器才能分辨出來了。比如電話就是3kHZ取樣的7位聲音,而CD是44.1kHZ取樣的16位聲音,所以CD就比電話更清楚。]

  當你理解了以上這兩個概念,比特率就很容易理解了。以電話為例,每秒3000點取樣,每個取樣是7比特,那么電話的比特率是21000。而CD是每秒44100點取樣,兩個聲道,每個取樣是13位PCM編碼,所以CD的比特率是44100*2*13=1146600,也就是說CD每秒的數據量大約是144KB,而一張CD的容量是74分等於4440秒,就是639360KB=640MB。

  聲音其實是一種能量波,因此也有頻率和振幅的特征,頻率對應於時間軸線,振幅對應於電平軸線。波是無限光滑的,弦線可以看成由無數點組成,由於存儲空間是 相對有限的,數字編碼過程中,必須對弦線的點進行采樣。采樣的過程就是抽取某點的頻率值,很顯然,在一秒中內抽取的點越多,獲取得頻率信息更豐富,為了復 原波形,一次振動中,必須有2個點的采樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次采樣,用 40kHz表達,這個40kHz就是采樣率。我們常見的CD,采樣率為44.1kHz。光有頻率信息是不夠的,我們還必須獲得該頻率的能量值並量化,用於表示信號強度。量化電平數為2的整數次冪,我們常見的CD位16bit的采樣大小,即2的16次方。采樣大小相對采樣率更難理解,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次采樣,采樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的采樣大小,結果我們只能保留A1-A8中4個點的 值而舍棄另外4個。如果我們進行3bit的采樣大小,則剛好記錄下8個點的所有信息。采樣率和采樣大小的值越大,記錄的波形更接近原始信號。

  要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道的 PCM編碼的WAV文件,它的數據速率則為44.1K×16×2=1411.2Kb/s。我們常說128K的MP3,對應的WAV的參數,就是這個 1411.2Kb/s,這個參數也被稱為數據帶寬,它和ADSL中的帶寬是一個概念。將碼率除以8,就可以得到這個WAV的數據速率,即176.4KByte/s。這表示存儲一秒鍾采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的音頻信號,需要176.4KB的空間,1分鍾則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用,只有2種方法,降低采樣指標或者壓縮。降低指標是不可取的,因此專家們研發了各種壓縮方案。

  16位二進制數的最小值是0000000000000000,最大值是1111111111111111,對應的十進制數就是0和65535,也就是最大和最小值之間的差值是65535,也就是說,它量化的模擬量的動態范圍可以差65535,也就是96.32分貝,所以,量化精度只和動態范圍有關,和頻率響應沒關系。動態范圍定在96分貝也是有道理的,人耳的無痛苦極限聲壓是90分貝,96分貝的動態范圍在普通應用中足夠使用,所以96分貝動態范圍內的模擬波,經量化后,不會產生削波失真的。

  聲音的位數就相當於畫面的顏色數,表示每個取樣的數據量,當然數據量越大,回放的聲音越准確,不至於把開水壺的叫聲和火車的鳴笛混淆。同樣的道理,對於畫面來說就是更清晰和准確,不至於把血和西紅柿醬混淆。不過受人的器官的機能限制,16位的聲音和24位的畫面基本已經是普通人類的極限了,更高位數就只能靠儀器才能分辨出來了。比如電話就是3kHZ取樣的7位聲音,而CD是44.1kHZ取樣的16位聲音,所以CD就比電話更清楚。

  如今市面上所有的主流產品都是16位的采集卡,而並非有些無知商家所鼓吹的64位乃至128位,他們將采集卡的復音概念與采樣位數概念混淆在了一起。如今功能最為強大的采集卡系列采用的EMU10K1芯片雖然號稱可以達到32位,但是它只是建立在Direct Sound加速基礎上的一種多音頻流技術,其本質還是一塊16位的聲卡。應該說16位的采樣精度對於電腦多媒體音頻而言已經綽綽有余了。 很多人都說,就算從原版CD抓軌,再刻錄成CD,重放的音質也是不一樣的,這個也是有道理的,那么,既然0101這樣的二進數是完全克隆的,重放怎么會不一樣呢?那是因為,時基問題造成的數模互換時的差別,並非是克隆過來的二進制數變了,二進制數一個也沒變,時基誤差不一樣,數模轉換后的模擬波的頻率和源相比就會有不一樣。

備注:

  MPEG 1 Layer 3是常見的MP3編碼的音頻文件,而所謂的MPEG 2 Layer 3其實只是22050HZ采樣率的MP3,MPEG 2.5 Layer 3也是采用更底采樣率的MP3。所以,MPEG 2 Layer 3、MPEG 2.5 Layer 3根本沒有采用44100HZ或48000HZ采樣率。由於采樣率的偏底,所以MPEG 2 Layer 3、MPEG 2.5 Layer 3音質應該不會比MPEG 1 Layer 3的音質好。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM