談談熵編碼無損壓縮的原理

本文轉載自查看原文 2021-01-28 11:18 919 游戲隨筆欄

轉載請標明出處：http://www.cnblogs.com/zblade/

一、概要

在項目開發中，有引入用到rANS熵編碼壓縮算法，在使用的背后，想看看其運行的基本原理，也算補一下個人的熵編碼知識。這里提到的熵編碼壓縮算法都是無損壓縮。很久沒有寫文章了，太忙了，不知道一年一篇文章算不算年更 :b

二、熵編碼

目前較為成熟的熵編碼是霍夫曼編碼，算術編碼，以及14年Duda提出的ANS（Asymmetric Numeral Systems 非對稱數系）編碼。先解釋一下霍夫曼編碼和算術編碼，然后重點說一下ANS編碼的原理。

2.1 香農熵編碼

熵在編碼中，是對信息的衡量，熵越大，表明所包含的信息越多。對於高頻出現的事件，其本身包含的信息其實是不多的，所以其對應的熵更小。而低頻出現的事件，其包含的信息更多，對應的熵更大。香農的熵編碼理論值計算公式為：
$H(x)=-\sum\limits_{i=1}^np_{i}log_2(p_{i})$ ...(1)

2.2 霍夫曼編碼

霍夫曼編碼是速度最快的熵編碼，其基本原理是基於統計的頻率，構建二叉樹，最后高頻率的字符用最短的編碼表示，最低頻率的字符用最長的編碼來表示。其基本的操作就是不斷構建二叉樹的過程，借鑒示例用圖1：

基本操作就是取頻率最低的2個字符，搭建一顆二叉樹，然后根節點頻率為葉子節點之和，如此遞歸，得到最終的二叉樹，示例中的編碼結果：

a: 0
b: 10
c: 110
d: 111

用編碼替換輸入的字符，即可得到最終的編碼結果。霍夫曼編碼總結就是2個操作：構建霍夫曼樹，執行霍夫曼編碼。霍夫曼是執行速度最快的熵編碼，但是其不能無限接近熵編碼的理論值。

2.3 算術編碼

算術編碼是一種無限接近熵編碼理論值的編碼，其本質操作就是用一個[0, 1)的小數來表示最終的編碼結果，其基本操作也是基於統計來進行的，用示例圖來表示最直觀[2]：

當前編碼的字符為ABC三種字符，如何編碼“BCCB”這個字符？

1）設定初始頻率值，三種字符均值分布，則均為1/3，划分初步的概率分布；

2）輸入B，其位於[0.333,0.667)，則以此區間進行下一次划分，這是各個字符出現的頻率進行更新，分別為1/4, 2/4, 1/4,得到最新的區間划分；

3）依次遞推，最后編碼所在區間為[0.639,0.6501),輸出這個區間內的一個小數，例如0.64，轉換為對應的二進制數即為最終的編碼結果。算術編碼是一種能夠接近理論值的熵編碼，對應的代價就是算術的過程，速度慢。

三、ANS熵編碼

項目中用到的編碼是最近幾年提出的一種新的熵編碼，本着查看原理的心理去探究了一下這種最新的編碼，很多文章都說的較為晦澀，不是我這樣的小白能夠理解的。在偶然拜讀到一位國外大佬的文章后，通過詳細的推導，總算大致了解了基本的實現原理，這里推薦有時間的可以看這篇英文原文:
Lossless Compression with Asymmetric Numeral Systems 結合這篇文章，我大致講講個人的理解:

3.1 將二進制字符串編碼成自然數

從最簡單的編碼開始，假設一個字符串是以0/1字符串組成，如果用進制轉換，我們都知道如何將其轉換為10進制數。讓我們展開來看：
假設我們已經轉換了二進制字符串 $b_1b_2b_2...b_i$ , 其對應的數值為 $x_i$ ，如果我們得到一個新的輸入字符 $b_{i+1}$ ，我們希望基於一個基本的編碼函數來得到輸出的數值，假設為:
$x_{i+1}=C(x_i, b_{i+1})$ ....(2)
基於離散數學教程，如果還記得的話，這個公式是這樣:
$C(x_i, b_{i+1}) := 2x_i + b_{i+1}$ ...(3)

為了區別"0"、“00”等情況，我們設定初始值: $x_0 = 1$ , 反過來，我們可以從一個10進制數轉換成對應的二進制字符串，其對應的函數可以表示為:
$(x_i, b_{i+1}) = D(x_{i+1}):=(\lfloor \frac{x_{i+1}}{2}\rfloor, x_{i+1} mod 2)$ ...(4)

舉例來說明:
基於公式3和4，將字符 $b_1b_2b_3b_4b_5 = 10011$ 轉換成一個十進制數， $x_0 = 1$ ，那么其轉換操作為：

$x_1 = C(x_0, b_1) = 2x_0 + b_1 = 2(1) + 1 = 3$
$x_2 = C(x_1, b_2) = 2x_1 + b_2 = 2(3) + 0 = 6$
$x_3 = C(x_2, b_3) = 2x_2 + b_3 = 2(6) + 0 = 12$
$x_4 = C(x_3, b_4) = 2x_3 + b_4 = 2(12) + 1 = 25$
$x_5 = C(x_4, b_5) = 2x_4 + b_5 = 2(25) + 1 = 51$

其對應的解碼過程為:
$(x_4, b_5) = D(x_5) = (\lfloor\frac{x_5}{2}\rfloor, x_5 mod 2) =( \lfloor\frac{51}{2}\rfloor, 51 mod 2) = (25, 1)$
$(x_3, b_4) = D(x_4) = (\lfloor\frac{x_4}{2}\rfloor, x_4 mod 2) =( \lfloor\frac{25}{2}\rfloor, 25 mod 2) = (12, 1)$
$(x_2, b_3) = D(x_3) = (\lfloor\frac{x_3}{2}\rfloor, x_3 mod 2) =( \lfloor\frac{12}{2}\rfloor, 12 mod 2) = (6, 0)$
$(x_1, b_2) = D(x_2) = (\lfloor\frac{x_2}{2}\rfloor, x_2 mod 2) =( \lfloor\frac{6}{2}\rfloor, 6 mod 2) = (3, 0)$
$(x_0, b_1) = D(x_1) = (\lfloor\frac{x_1}{2}\rfloor, x_1 mod 2) =( \lfloor\frac{3}{2}\rfloor, 3 mod 2) = (1, 1)$
最終“10011”二進制字符串，轉換為十進制數為51，需要用 $\lceil log_2(51)\rceil = 6$ 個bit來表示，相對於理論極限值，多了一位，注意這里的解壓結果相對輸入字符串是倒序的，一般應用的時候，會先將輸入倒序排列，這樣解壓得到結果就是正序的結果。

3.2 編碼函數推導

上面的編碼都是基於0和1字符串是均值分布的前置條件的，實際情況中，是很大可能出現不均值分布的情況的。
引用前面的公式2， $x_{i+1} = C(x_i, b_{i+1})$ , 假設 $x_i$ 具有 $log_2(x_i)$ 位的信息，如果我們想把 $b_{i+1}$ 用理論值編碼 $-log_2(p_{b_i+1})$ 位信息，那么可以推導公式：
$H(x_{i+1}) = H(C_opt(x_i, b_{i+1})))$ $H(x_{i+1}) = H(x_i) + H(b_{i+1})$ $H(x_{i+1}) = log_2(x_i) - log_2(p_{b_i+1})$ $H(x_{i+1})=log_2(\frac{x_i}{p_{b_i+1}})$

所以：
$C_opt(x_i, b_{i+1}) ≈ \frac{x_i}{p_{b_i+1}}$
所以，我們可以得到這樣的理論編碼函數: $C(x_i, b_{i+1})≈\frac{x_i}{p_{b_i+1}}$ ...(5)

3.3 Uniform Binary Variant(uABS)

現在我們將范圍拓展，假設我們要編碼的數字范圍為[1,N]，用"1" 和"0"來分別表示奇數和偶數，對應的概率為 $1-p$ 和 $p$ , 對應的在N個數字中，偶數出現的次數為 $\lceil N.P\rceil$ ，那么我們可以推導N+1 和 N之間的關系為：
$\lceil(N+1).P\rceil - \lceil N.P\rceil =\begin{cases}1 & (if N has an odd mapped)\\0 & otherwise\end{cases}$ ...(6)
這里就不再詳細的推證了，公式6等價於:
$C(x_i, b_{i+1}) = \begin{cases} \lceil\frac{x_{i+1}}{1-p}\rceil - 1 & if b_{i+1} = 0 \\ \lfloor \frac{x_i}{p}\rfloor & otherwise\end{cases}$ ...(7)

基於公式7，我們就可以依次編碼非均值分布的二進制數字符串了，其對應的解碼公式為:
$(x_i, b_{i+1}) = D(x_{i+1})$ => $b_{i+1}=\lceil(x_{i+1} + 1).p\rceil - \lceil x_{i+1}.p\rceil$ $x_i = \begin{cases} x_{i+1} - \lceil x_{i+1}.p\rceil & if b_{i+1} = 0 \\ \:\lceil x_{i+1}.p\rceil & otherwise \end{cases}$

用實例來演示編碼和解碼的過程：
繼續上面的用例 $b_1b_2b_3b_4b_5 = 10011$ , 設定 $p = \frac {3}{10}, x_0 = 1$ ，其編碼過程為：
$x_1 = C(x_0, b_1) = \lfloor\frac{x_0}{p}\rfloor = \lfloor 1. \frac{10}{3}\rfloor = 3$
$x_2 = C(x_1, b_2) = \lceil\frac{x_i + 1}{1- p} - 1\rceil = \lceil (3+1)\frac{10}{7}\rceil-1 = 5$ $x_3 = C(x_2, b_3) = \lceil\frac{x_i + 1}{1- p} - 1\rceil = \lceil (5+1)\frac{10}{7}\rceil-1 = 8$ $x_4 = C(x_3, b_4) = \lfloor\frac{x_0}{p}\rfloor = \lfloor 8. \frac{10}{3}\rfloor = 26$ $x_5 = C(x_4, b_5) = \lfloor\frac{x_0}{p}\rfloor = \lfloor 26. \frac{10}{3}\rfloor = 86$
對應的解碼過程為：
$b_5 = \lceil(x_5 + 1).p\rceil - \lceil x_5 . p\rceil = \lceil(86 + 1). \frac{3}{10}\rceil -\lceil 86.\frac{3}{10}\rceil = 1$ $x_4 = \lceil x_5 . p\rceil = \lceil 86.\frac{3}{10}\rceil = 26$
$b_4 = \lceil(x_4 + 1).p\rceil - \lceil x_4 . p\rceil = \lceil(26 + 1). \frac{3}{10}\rceil -\lceil 26.\frac{3}{10}\rceil = 1$ $x_3 = \lceil x_4 . p\rceil = \lceil 26.\frac{3}{10}\rceil = 8$
$b_3 = \lceil(x_3 + 1).p\rceil - \lceil x_3 . p\rceil = \lceil(8 + 1). \frac{3}{10}\rceil -\lceil 8.\frac{3}{10}\rceil = 0$ $x_2 = x_3 -\lceil x_3 . p\rceil = 8 -\lceil 8.\frac{3}{10}\rceil = 5$
$b_2 = \lceil(x_2 + 1).p\rceil - \lceil x_2 . p\rceil = \lceil(5 + 1). \frac{3}{10}\rceil -\lceil 5.\frac{3}{10}\rceil = 0$ $x_1 = x_2 -\lceil x_2 . p\rceil = 5 -\lceil 5.\frac{3}{10}\rceil = 3$ $b_1 = \lceil(x_1 + 1).p\rceil - \lceil x_1 . p\rceil = \lceil(3 + 1). \frac{3}{10}\rceil -\lceil 3.\frac{3}{10}\rceil = 1$ $x_0 = \lceil x_1 . p\rceil = \lceil 3.\frac{3}{10}\rceil = 1$

3.4 Range Variant(rANS)

上面的uABS是針對二進制字符的熵編碼，我們也可以進一步的推廣到非二進制字符的非均值熵編碼。首先我們需要明確的是，公式5是依然生效的，只是在推廣的時候，我們將 $b_{i+1}$ 推廣為 $s_{i+1}$ ，也就是輸入的二進制字符變成符號 $s_{i+1}$ 即可。這樣在新增一個字符的時候，對應的等價新增該字符的熵編碼信息，所以公式5是依然生效的。
此外理論上來說，對於字符集，我們是可以有任意的概率分布的(只要字符集任意長)，但是實際的時候我們是將其限定在一個量化范圍內的，一般是 $2^n$ 的范圍。在這個范圍內，符號 $s$ 出現的次數為 $f_s$ ，那么可以得到 $p_s ≈ \frac{f_s}{2^n}$ ，基於這個量化，結合uABS的公式，可以用下面的公式來表示rANS的編碼：
$C(x_i, s_{i+1}) = \lfloor \frac{x_i}{f_s}\rfloor.2^n + CDF[s] + (x_i \:mod\: f_s)$ ...(8)
對應的解碼操作公式為:
$s_{i+1} = symbol(x_{i+1} \:mod\: 2^n) such\: that\: CDF[s] ≤ x_{i+1}\: mod \:2^n ＜ CDF[s+1]$ ....(9)
$x_i=D(x_{i+1})=f_s.\lfloor \frac{x_{i+1}}{2^n}\rfloor-CDF[s]+(x_{i+1}\: mod \:2^n)$ ...(10)
其中 $CDF[s] := f_0 + f_1 + ...+f_{s-1}$ ,可以理解為累計分布統計操作。

用示例來解釋一下壓縮和解壓：
對於字符集['a', 'b', 'c']，其量化的 n = 3, 其統計的分布為 $[f_a, f_b, f_c] = [5, 2,1]$ ，其對應的 $CDF[s] = [0, 5, 7, 8]$ ，現在我們來編碼字符串"abc"，對於初始值 $x_0$ ，我們設定為 $2^n$ ，基於公式8可以得到編碼過程為:
$x_1 = C(x_0, a) = \lfloor\frac{x_0}{f_a}\rfloor.2^3 + CDF[a] + (x_0 \:mod\:f_a)=\lfloor\frac{8}{5}\rfloor.8 + 0 + (8\:mod\:5) = 11$
$x_2 = C(x_1, b) = \lfloor\frac{x_1}{f_b}\rfloor.2^3 + CDF[b] + (x_1 \:mod\:f_b)=\lfloor\frac{11}{2}\rfloor.8 + 5 + (11\:mod\:2) = 46$
$x_3 = C(x_2, c) = \lfloor\frac{x_2}{f_c}\rfloor.2^3 + CDF[c] + (x_c \:mod\:f_c)=\lfloor\frac{46}{1}\rfloor.8 + 7 + (46\:mod\:1) = 375$
對應的解碼操作為:
$s_2 = symbol(x_3 \:mod\:8) = symbol(375 mod 8) = 7 => c$ $x_2 = D(x_3) = f_c.\lfloor\frac{3}{8}\rfloor-CDF[c]+(x_3\:mod\:8) = 1.\lfloor\frac{375}{8}\rfloor - 7 + (375\:mod\:8)=46$
$s1=symbol(x_2\:mod\:8)=symbol(46\:mod\:8)=6=>b$ $x_1 = D(x_2) = f_b.\lfloor\frac{x_2}{8}\rfloor - CDF[b] + (x_2\:mod\:8) = 2.\:\lfloor\frac{46}{8}\rfloor -5 + (46\:mod\:8) = 11$ $s0 = symbol(x_1\:mod\:8)=symbol(11\:mod\:8)=3=>a$ $x_0 = D(x_1) = f_a.\lfloor\frac{x_1}{8}\rfloor - CDF[a] + (x_1\:mod\:8) = 5.\lfloor\frac{11}{8}\rfloor - 0 + (11\:mod\:8) = 8$

3.5 量化處理rANS

上面的rANS編碼展示的是短字符的時候的編碼流程，如果一個文件大小有1MB或者更大，這么長的字符串如何編碼？如果直接編碼的話，肯定會超過整數的表示范圍，解決辦法就是移位分解：
當編碼 $x_i$ 的時候，得到的結果過大時，將其右移M位來確保得到的結果處於 $[2^M, 2^{2M} -1]$ （例如M= 16bits）這個區間，同理在解壓的時候，如果 $x_i$ 較小，會將其左移M位，然后在進行處理，這樣就能確保編碼結果能用整形數來表示，其大致操作流程為:

MASK = 2**M -1 BOUND = 2**(2*M) - 1 ##Encoding s = readsymbol() x_test = (x / f[s]) << n + (x % f[s]) + c[s] if(x_test > BOUND): write16bits(x & MASK) x = x >> M x = (x /f[s]) << n + (x % f[s]) + c[s] ##Decoding s = symbol[x & MASK] writeSymbol(s) x = f[s](x >> n) + (x & MASK) -c[s] if(x < 2**M): x = x << M + read16bits()

對於ANS, 還有其他的編碼，例如tANS編碼，這里就不再討論，還沒看到這部分的編碼。在實際的編碼過程中，就是脫胎於上面的編碼理論，進一步的完善編碼上下文內容即可。

引用:

[1]:熵壓縮：信息熵、Huffman編碼、算數編碼、ANS+FSE

[2]:算術編碼_小石_新浪博客

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 01 霍夫曼編碼 —— 無損壓縮你所能用到的無損壓縮編碼（一）你所能用到的無損壓縮編碼(二） java圖片無損壓縮 ImageSharp源碼詳解之JPEG壓縮原理（4）熵編碼快速無損壓縮視頻初探 C# 無損壓縮圖片添磚加瓦：snappy無損壓縮算法 C# 無損壓縮圖片 C# 圖片無損壓縮