(轉)PCM數據格式

本文轉載自查看原文 2015-09-09 17:29 3528 audio

1. 音頻簡介

經常見到這樣的描述: 44100HZ 16bit stereo 或者 22050HZ 8bit mono 等等.

44100HZ 16bit stereo: 每秒鍾有 44100 次采樣, 采樣數據用 16 位(2字節)記錄, 雙聲道(立體聲);

22050HZ 8bit mono: 每秒鍾有 22050 次采樣, 采樣數據用 8 位(1字節)記錄, 單聲道;

當然也可以有 16bit 的單聲道或 8bit 的立體聲, 等等。

采樣率是指：聲音信號在“模→數”轉換過程中單位時間內采樣的次數。采樣值是指每一次采樣周期內聲音模擬信號的積分值。

對於單聲道聲音文件，采樣數據為八位的短整數（short int 00H-FFH）；

而對於雙聲道立體聲聲音文件，每次采樣數據為一個16位的整數（int），高八位(左聲道)和低八位(右聲道)分別代表兩個聲道。

人對頻率的識別范圍是 20HZ - 20000HZ, 如果每秒鍾能對聲音做 20000 個采樣, 回放時就足可以滿足人耳的需求. 所以 22050 的采樣頻率是常用的, 44100已是CD音質, 超過48000的采樣對人耳已經沒有意義。這和電影的每秒 24 幀圖片的道理差不多。

每個采樣數據記錄的是振幅, 采樣精度取決於儲存空間的大小:

1 字節(也就是8bit) 只能記錄 256 個數, 也就是只能將振幅划分成 256 個等級;

2 字節(也就是16bit) 可以細到 65536 個數, 這已是 CD 標准了;

4 字節(也就是32bit) 能把振幅細分到 4294967296 個等級, 實在是沒必要了.

如果是雙聲道(stereo), 采樣就是雙份的, 文件也差不多要大一倍.

這樣我們就可以根據一個 wav 文件的大小、采樣頻率和采樣大小估算出一個 wav 文件的播放長度。

譬如 "Windows XP 啟動.wav" 的文件長度是 424,644 字節, 它是 "22050HZ / 16bit / 立體聲" 格式(這可以從其 "屬性->摘要" 里看到),

那么它的每秒的傳輸速率(位速, 也叫比特率、取樣率)是 22050*16*2 = 705600(bit/s), 換算成字節單位就是 705600/8 = 88200(字節/秒),
播放時間：424644(總字節數) / 88200(每秒字節數) ≈ 4.8145578(秒)。

但是這還不夠精確, 包裝標准的 PCM 格式的 WAVE 文件(*.wav)中至少帶有 42 個字節的頭信息, 在計算播放時間時應該將其去掉,
所以就有：(424644-42) / (22050*16*2/8) ≈ 4.8140816(秒). 這樣就比較精確了.

關於聲音文件還有一個概念: "位速", 也有叫做比特率、取樣率, 譬如上面文件的位速是 705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒的意思;

壓縮的音頻文件常常用位速來表示, 譬如達到 CD 音質的 MP3 是: 128kbps / 44100HZ.

2. PCM數據格式

PCM(Pulse Code Modulation)也被稱為脈碼編碼調制。PCM中的聲音數據沒有被壓縮，如果是單聲道的文件，采樣數據按時間的先后順序依次存入。(它的基本組織單位是BYTE(8bit)或WORD(16bit))

如果是雙聲道的文件，采樣數據按時間先后順序交叉地存入。如圖所示:

PCM的每個樣本值包含在一個整數i中，i的長度為容納指定樣本長度所需的最小字節數。

首先存儲低有效字節，表示樣本幅度的位放在i的高有效位上，剩下的位置為0，這樣8位和16位的PCM波形樣本的數據格式如下所示。

樣本大小數據格式最小值最大值

8位PCM unsigned int 0 225

16位PCM int -32767 32767

轉自：http://blog.csdn.net/ownwell/article/details/8114121

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pcm數據格式存儲格式 PCM音頻數據格式介紹 wave文件(*.wav)格式、PCM數據格式 PCM數據格式，多少字節算一幀 YUV數據格式(轉) 【轉】BSON數據格式 TabletoJson,表格轉json數據格式操作pcm數據，pcm轉wav Labelme數據轉mask_rcnn數據格式 JSON數據格式