H.264基本原理與編碼流程

本文轉載自查看原文 2018-11-07 19:16 3381 視頻編解碼

H264視頻壓縮算法現在無疑是所有視頻壓縮技術中使用最廣泛，最流行的。隨着 x264/openh264以及ffmpeg等開源庫的推出，大多數使用者無需再對H264的細節做過多的研究，這大降低了人們使用H264的成本。

但為了用好H264，我們還是要對H264的基本原理弄清楚才行。今天我們就來看看H264的基本原理。

H264概述

H264壓縮技術主要采用了以下幾種方法對視頻數據進行壓縮。包括：

　　幀內預測壓縮，解決的是空域數據冗余問題。
　　幀間預測壓縮（運動估計與補償），解決的是時域數據冗徐問題。
　　整數離散余弦變換（DCT），將空間上的相關性變為頻域上無關的數據然后進行量化。
　　CABAC壓縮。

經過壓縮后的幀分為：I幀，P幀和B幀:

　　I幀：關鍵幀，采用幀內壓縮技術。
　　P幀：向前參考幀，在壓縮時，只參考前面已經處理的幀。采用幀音壓縮技術。
　　B幀：雙向參考幀，在壓縮時，它即參考前而的幀，又參考它后面的幀。采用幀間壓縮技術。

除了I/P/B幀外，還有圖像序列GOP。

　　GOP:兩個I幀之間是一個圖像序列，在一個圖像序列中只有一個I幀。如下圖所示：

下面我們就來詳細描述一下H264壓縮技術。

H264壓縮技術

H264的基本原理其實非常簡單，下我們就簡單的描述一下H264壓縮數據的過程。通過攝像頭采集到的視頻幀（按每秒 30 幀算），被送到 H264 編碼器的緩沖區中。編碼器先要為每一幅圖片划分宏塊。

以下面這張圖為例:

划分宏塊

H264默認是使用 16X16 大小的區域作為一個宏塊，也可以划分成 8X8 大小。

划分好宏塊后，計算宏塊的象素值。

以此類推，計算一幅圖像中每個宏塊的像素值，所有宏塊都處理完后如下面的樣子。

划分子塊

H264對比較平坦的圖像使用 16X16 大小的宏塊。但為了更高的壓縮率，還可以在 16X16 的宏塊上更划分出更小的子塊。子塊的大小可以是 8X16､ 16X8､ 8X8､ 4X8､ 8X4､ 4X4非常的靈活。

上幅圖中，紅框內的 16X16 宏塊中大部分是藍色背景，而三只鷹的部分圖像被划在了該宏塊內，為了更好的處理三只鷹的部分圖像，H264就在 16X16 的宏塊內又划分出了多個子塊。

這樣再經過幀內壓縮，可以得到更高效的數據。下圖是分別使用mpeg-2和H264對上面宏塊進行壓縮后的結果。其中左半部分為MPEG-2子塊划分后壓縮的結果，右半部分為H264的子塊划壓縮后的結果，可以看出H264的划分方法更具優勢。

宏塊划分好后，就可以對H264編碼器緩存中的所有圖片進行分組了。

幀分組

對於視頻數據主要有兩類數據冗余，一類是時間上的數據冗余，另一類是空間上的數據冗余。其中時間上的數據冗余是最大的。下面我們就先來說說視頻數據時間上的冗余問題。

為什么說時間上的冗余是最大的呢？假設攝像頭每秒抓取30幀，這30幀的數據大部分情況下都是相關聯的。也有可能不止30幀的的數據，可能幾十幀，上百幀的數據都是關聯特別密切的。

對於這些關聯特別密切的幀，其實我們只需要保存一幀的數據，其它幀都可以通過這一幀再按某種規則預測出來，所以說視頻數據在時間上的冗余是最多的。

為了達到相關幀通過預測的方法來壓縮數據，就需要將視頻幀進行分組。那么如何判定某些幀關系密切，可以划為一組呢？我們來看一下例子，下面是捕獲的一組運動的台球的視頻幀，台球從右上角滾到了左下角。

H264編碼器會按順序，每次取出兩幅相鄰的幀進行宏塊比較，計算兩幀的相似度。如下圖：

通過宏塊掃描與宏塊搜索可以發現這兩個幀的關聯度是非常高的。進而發現這一組幀的關聯度都是非常高的。因此，上面這幾幀就可以划分為一組。其算法是：在相鄰幾幅圖像畫面中，一般有差別的像素只有10%以內的點,亮度差值變化不超過2%，而色度差值的變化只有1%以內，我們認為這樣的圖可以分到一組。

在這樣一組幀中，經過編碼后，我們只保留第一帖的完整數據，其它幀都通過參考上一幀計算出來。我們稱第一幀為IDR／I幀，其它幀我們稱為P／B幀，這樣編碼后的數據幀組我們稱為GOP。

運動估計與補償

在H264編碼器中將幀分組后，就要計算幀組內物體的運動矢量了。還以上面運動的台球視頻幀為例，我們來看一下它是如何計算運動矢量的。

H264編碼器首先按順序從緩沖區頭部取出兩幀視頻數據，然后進行宏塊掃描。當發現其中一幅圖片中有物體時，就在另一幅圖的鄰近位置（搜索窗口中）進行搜索。如果此時在另一幅圖中找到該物體，那么就可以計算出物體的運動矢量了。下面這幅圖就是搜索后的台球移動的位置。

通過上圖中台球位置相差，就可以計算出台圖運行的方向和距離。H264依次把每一幀中球移動的距離和方向都記錄下來就成了下面的樣子。

運動矢量計算出來后，將相同部分（也就是綠色部分）減去，就得到了補償數據。我們最終只需要將補償數據進行壓縮保存，以后在解碼時就可以恢復原圖了。壓縮補償后的數據只需要記錄很少的一點數據。如下所示：

我們把運動矢量與補償稱為幀間壓縮技術，它解決的是視頻幀在時間上的數據冗余。除了幀間壓縮，幀內也要進行數據壓縮，幀內數據壓縮解決的是空間上的數據冗余。下面我們就來介紹一下幀內壓縮技術。

幀內預測

人眼對圖象都有一個識別度，對低頻的亮度很敏感，對高頻的亮度不太敏感。所以基於一些研究，可以將一幅圖像中人眼不敏感的數據去除掉。這樣就提出了幀內預測技術。

H264的幀內壓縮與JPEG很相似。一幅圖像被划分好宏塊后，對每個宏塊可以進行 9 種模式的預測。找出與原圖最接近的一種預測模式。

下面這幅圖是對整幅圖中的每個宏塊進行預測的過程。

幀內預測后的圖像與原始圖像的對比如下：

然后，將原始圖像與幀內預測后的圖像相減得殘差值。

再將我們之前得到的預測模式信息一起保存起來，這樣我們就可以在解碼時恢復原圖了。效果如下：

經過幀內與幀間的壓縮后，雖然數據有大幅減少，但還有優化的空間。

對殘差數據做DCT

可以將殘差數據做整數離散余弦變換，去掉數據的相關性，進一步壓縮數據。如下圖所示，左側為原數據的宏塊，右側為計算出的殘差數據的宏塊。

將殘差數據宏塊數字化后如下圖所示：

將殘差數據宏塊進行 DCT 轉換。

去掉相關聯的數據后，我們可以看出數據被進一步壓縮了。

做完 DCT 后，還不夠，還要進行 CABAC 進行無損壓縮。

CABAC

上面的幀內壓縮是屬於有損壓縮技術。也就是說圖像被壓縮后，無法完全復原。而CABAC屬於無損壓縮技術。

無損壓縮技術大家最熟悉的可能就是哈夫曼編碼了，給高頻的詞一個短碼，給低頻詞一個長碼從而達到數據壓縮的目的。MPEG-2中使用的VLC就是這種算法，我們以 A-Z 作為例子，A屬於高頻數據，Z屬於低頻數據。看看它是如何做的。

CABAC也是給高頻數據短碼，給低頻數據長碼。同時還會根據上下文相關性進行壓縮，這種方式又比VLC高效很多。其效果如下：

現在將 A-Z 換成視頻幀，它就成了下面的樣子。

從上面這張圖中明顯可以看出采用 CACBA 的無損壓縮方案要比 VLC 高效的多。

轉：https://blog.csdn.net/garrylea/article/details/78536775

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於H.264編碼原理以及IPB幀 6. H.264/AVC編碼器原理視頻編碼的基本原理 Android音視頻開發（1）：H264 基本原理 H.264 SVC FFmpeg，H.264，Directshow，和opencv及視頻編碼與封裝格式 H.264學習筆記6——指數哥倫布編碼視頻編解碼相關基礎知識（一）----H.264編碼和H.265編碼的區別 x264 - 高品質 H.264 編碼器 H.264 碼率設置