【流媒體】H264—MP4格式及在MP4文件中提取H264的SPS、PPS及碼流
SkySeraph Apr 1st 2012
Email:skyseraph00@163.com
流媒體系列: http://skyseraph.com/2012/04/11/Media/流媒體專題/
一、MP4格式基本概念
MP4格式對應標准MPEG-4標准(ISO/IEC14496)
二、MP4封裝格式核心概念
1 MP4封裝格式對應標准為 ISO/IEC 14496-12(信息技術 視聽對象編碼的第12部分: ISO 基本媒體文件格式/Information technology Coding of audio-visual objects Part 12: ISO base media file format)
附-- 標准免費下載: Freely Available Standards http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html
2 MP4封裝格式是基於QuickTime容器格式定義,媒體描述與媒體數據分開,目前被廣泛應用於封裝h.264視頻和ACC音頻,是高清視頻/HDV的代表。
3 MP4文件中所有數據都封裝在box中(對應QuickTime中的atom),即MP4文件是由若干個box組成,每個box有長度和類型,每個box中還可以包含另外的子box(稱container box)。
一個MP4文件首先會有且只有一個“ftyp”類型的box,作為MP4格式的標志並包含關於文件的一些信息;之后會有且只有一個“moov”類型的box(Movie Box),它是一種container box,子box包含了媒體的metadata信息;MP4文件的媒體數據包含在“mdat”類型的box(Midia Data Box)中,該類型的box也是container box,可以有多個,也可以沒有(當媒體數據全部引用其他文件時),媒體數據的結構由metadata進行描述。
4 MP4中box存儲方式為大端模式。一般,標准的box開頭會有四個字節的box size。
5 幾個名詞
track |
表示一些sample的集合,對於媒體數據來說,track表示一個視頻或音頻序列。 |
hint track |
特殊的track,並不包含媒體數據,包含的是一些將其他數據track打包成流媒體的指示信息。 |
sample |
對於非hint track來說,video sample即為一幀視頻,或一組連續視頻幀,audio sample即為一段連續的壓縮音頻,它們統稱sample。 對於hint track,sample定義一個或多個流媒體包的格式。 |
sample table |
指明sampe時序和物理布局的表。 |
chunk |
一個track的幾個sample組成的單元。 |
三、MP4封裝格式結構圖
1 實例樣本
來源於Android MediaRecoder視頻錄制,平台為華為T8300和TCL968,用mp4info查看如下:
用EsEYE查看如下:
用winhex分析如下:
2 box結構圖
接下來對h264編碼中有用的幾個進行闡述,其它不再描述。
3 ftyp(file type box)
如下圖所示,開始的四字節00 00 00 00 18表示該box的size為24字節(含頭),然后66 74 79 70是ftyp的BOX TYPE,其它是一些格式兼容等相關信息。
4 mdat
如下圖所示,BOX YPE為6D 64 61 74 ,緊接着的00 00 09 39表示sliece長度
5 avcC
如下圖所示,紅色為BOX TYPE
四、MP4文件中h264的 SPS、PPS獲取
1 【參考依據】ISO/IEC 14496-15 (下載)
2 【綜述】在H264中,SPS和PPS存在於NALU header中,而在MP4文件中,SPS和PPS存在於AVCDecoderConfigurationRecord, 首先要定位avcC.
3 【定義】
①參數集:一組很少改變的,為大量VCL NALU 提供解碼信息的數據。
序列參數集SPS作用於一系列連續的編碼圖像,而圖像參數集PPS作用於編碼視頻序列中一個或多個獨立的圖像。
如果解碼器沒能正確接收到這兩個參數集,那么其他NALU 也是無法解碼的。因此它們一般在發送其它 NALU 之前發送,並且使用不同的信道或者更加可靠的傳輸協議(如TCP)進行傳輸,也可以重復傳輸。
②關於AVCDecoderConfigurationRecord結構定義為
4 【實例分析】 數據如上avcC圖所示,現在對數據進行詳細分析
所以,提取的SPS和PPS分別為67 42 00 1E A6 81 41 F9和68 CE 38 80
五、MP4文件中的H264 data /NALU slice
1 【參考】H264官方文檔(下載) + 畢書—新一代視頻壓縮編碼標准(下載)
2 【綜述】
① 在MP4格式文件中,H264 slice並不是以00 00 00 01來作分割,而是存儲在mdat box中。
② H264基本碼流由一些列的NALU組成。原始的NALU單元組成:[start code] + [NALU header] + [NALU payload]
start code |
1字節 |
00 00 01 或 00 00 00 01 |
需要添加的 |
NALU header |
1字節 |
如下3 |
通過mdat定位 |
③ H264基本碼流結構分兩層:視頻編碼層VCL和網絡適配層NAL,這樣使信號處理和網路傳輸分離
VCL |
負責高效視頻內容表示 |
NAL |
以網絡所要求的恰當方式對數據進行打包和發送 |
3 【定義】 NALU header
+---------------+
|0|1|2|3|4|5|6|7|
+-+-+-+-+-+-+-+-+
|F|NRI| Type |
+---------------+
特別的,當值為7和8分別為SPS和PPS。
畢書(下載)(P191)上的定義為:
4 【實例分析】數據分析,數據如上圖mdat所示
6D 64 61 74 |
mdat BOX TYPE |
00 00 09 39 |
silce長度,2361 |
接下來的65就是NALU header,可以由65&0x1F來求的后五個bit,從而得知此slice為I frame
注意,mdat與silce之間有可能存在若干占位符,我在TCL手機測試時就出現了連續的00的占位符,這樣后面用H264硬編碼時會比較麻煩一點。
Ref/Related
1 相關資料和工具在文中鏈接下載
2 http://www.52rd.com/Blog/wqyuwss/559/4/
3 http://blog.csdn.net/szu030606/article/details/5943279
4 http://blog.csdn.net/k1988/article/details/5654631
5 http://www.cppblog.com/czanyou/archive/2008/11/26/67940.html
6 http://krdai.info/blog/sps-pps-in-mp4-format.html
7 http://www.cnitblog.com/zouzheng/archive/2007/04/04/25155.html
8 http://bbs.chinavideo.org/viewthread.php?tid=10273