Deep Learning-Based Video Coding: A Review and A Case Study

本文轉載自查看原文 2019-06-13 18:34 1600 編解碼

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

1、Abstract:

　　本文主要介紹的是2015年以來關於深度圖像/視頻編碼的代表性工作，主要可以分為兩類：深度編碼方案以及基於傳統編碼方案的深度工具。對於深度編碼方案，像素概率建模和自動編碼器是兩種方法，分別可以看作是預測編碼方案和變換編碼方案。對於深度工具，有幾種使用深度學習來執行幀內預測、幀間預測、跨通道預測、概率分布預測、變換、后處理、環內濾波器、上/下采樣以及編碼優化的建議技術。為了倡導基於深度學習的視頻編碼研究，本文對我們開發的視頻編解碼器即深度學習視頻編碼（Deep Learning Video Coding，DLVC）進行了案例研究。DLVC具有兩個深度工具，分別為基於CNN的環路濾波器（CNN-based in-loop filter，CNN-ILF）以及基於CNN的塊自適應分辨率編碼（CNN-based block adaptive resolution coding，CNN-BARC）。這兩種工具都有助於顯著提高壓縮效率。在隨機存取和低延遲配置下，利用這兩種深度工具以及其他非深度編碼工具，DLVC比HEVC平均節省39.6%和33.0%的比特。

2、Introduction:

A. Image/Video Coding:

　　有損圖像/視頻編碼解決方案的評價分為兩個方面：一是壓縮效率，通常用比特數（編碼率）來衡量，越低越好；二是產生的損失，通常用重建圖像/視頻的質量來衡量，與原始圖像/視頻相比，越高越好。

　　目前，H.265/HEVC已於2013年正式發布，代表着最先進的圖像/視頻編碼技術。隨着視頻技術的進步，特別是超高清晰度（ultra-high definition，UHD）視頻的普及，迫切需要進一步提高壓縮效率，以便在有限的存儲空間和有限的傳輸帶寬中容納UHD視頻。因此，在HEVC、MPEG和VCEG組成聯合視頻專家組（the Joint Video Experts Team，JVET）后，對先進的視頻編碼技術進行了探索，並開發了聯合探索模型（Joint Exploration Model，JEM）進行了研究。此外，自2018年以來，JVET團隊一直致力於開發一種新的視頻編碼標准，即多功能視頻編碼（Versatile Video Coding，VVC），作為HEVC的繼承者。與HEVC相比，VVC可以在保持相同質量的同時節省約50%的比特，特別是對於UHD視頻，從而提高壓縮效率。然而，值得注意的是，VVC的改進可能以犧牲乘法編碼/解碼的復雜性為代價。

B. Deep Learning for Image/Video Coding:

　　本文旨在對最新的基於深度學習的圖像/視頻編碼報告（截至2018年底）進行全面回顧，並對我們開發的原型視頻編解碼器即深度學習視頻編碼（DLVC）進行案例研究，以使感興趣的讀者了解現狀。讀者也可以參考[84]獲取關於同一主題的最近發表的評論論文。

C. Preliminaries:

　　在本文中，我們考慮了自然圖像/視頻的編碼方法，即人們通過日常相機或手機拍攝的圖像/視頻。雖然這些方法通常都適用，但它們是專門為自然圖像/視頻設計的，對於其他類型（如生物醫學、遙感）來說，它們可能表現不太好。

　　目前，幾乎所有的自然圖像/視頻都是數字格式。灰度數字圖像可以表示為D^{m x n}，其中m和n是圖像的行數（高度）和列數（寬度），D是單個圖片元素（像素）的定義域。例如，D={0，1，……，255}是一種常用設置，其中|D|=256=2⁸。因此，像素值可以用一個8位整數表示；因此，未壓縮的灰度數字圖像每像素有8位（bits-per-pixel，bpp），而壓縮后的比特更少。

　　因為人類的視覺對亮度比色度更敏感，所以YCbCr（YUV）顏色空間比RGB采用的要多得多，U和V通道通常采用下采樣以實現壓縮。現有的無損編碼方法對自然圖像的壓縮比可以達到1.5～3，明顯低於實際需求。因此，引入有損編碼來壓縮更多的數據，但代價是造成損失。損失可以通過原始圖像和重建圖像之間的差異來測量，例如，對灰度圖像使用均方誤差（mean-squared-error，MSE）。此外，重建圖像與原始圖像相比的質量可以通過峰值信號音調比（peak signal-tonoise ratio，PSNR）來測量。對於彩色圖像/視頻，通常單獨計算Y、U、V的PSNR值。對於視頻，通常分別計算不同幀的PSNR值，然后取其平均值。在PSNR的替代中還有其他質量指標，如結構相似性（structural similarity，SSIM）和多尺度SSIM（multi-scale SSIM，MS-SSIM）[126]。

　　為了比較不同的無損編碼方案，只需比較壓縮比或結果率（bpp、bps等）。為了比較不同的有損編碼方案，有必要同時考慮碼率和質量。例如，計算幾個不同質量水平下的相對碼率，然后對碼率進行平均，這是一種常用的方法；平均相對碼率被稱為Bjontegaard’s delta-rate (BD-rate)[13]。評價圖像/視頻編碼方案還有其他重要方面，包括編碼/解碼的復雜性、可擴展性、魯棒性等。

3、Review of deep schemes:

　　在本節中，我們將回顧一些具有代表性的深度編碼方案。一般來說，深度圖像編碼有兩種方法，即像素概率建模和自動編碼器。這兩種方法在幾個深度學習方案中結合在一起。此外，我們還討論了深度視頻編碼方案和特殊用途編碼方案，其中特殊用途編碼方案又可以進一步分為感知編碼和語義編碼。

A. Pixel Probability Modeling:

　　根據香農的信息理論[102]，無損編碼的最優方法可以達到的最小值為- log₂p(x)，其中p(x)是符號x的概率。為了達到這一目標，人們發明了許多無損編碼方法，並且認為算術編碼[129]是最理想的方法之一。給定概率 p(x) ，算術編碼確保編碼碼率盡可能接近 - log₂p(x) 。因此，剩下的問題是找出概率，但這對於自然圖像/視頻來說是非常困難的，因為它具有很高的維度。

　　估計 p(x) 的一種方法是將圖像分解為 m x n 像素，並逐個估計這些像素的概率（例如以光柵掃描順序）。這是一種典型的預測編碼策略，注意：

如圖1所示，這里 x_i的條件也稱為 x_i的上下文。當圖像較大時，條件概率很難估計。簡化是為了減少上下文的范圍，例如：

其中。 k 是一種預設定的常數。

　　眾所周知，深度學習擅長解決回歸和分類問題。因此，在給定上下文 x₁, ... , x_i-1 的情況下，建議使用經過訓練的深度網絡來估計概率 p(x_i | x₁, ... , x_i-1) 。早在2000年就有人提出了這種策略[12]用於其他類型的高維數據，但直到最近才應用於圖像/視頻。例如，在[58]中，考慮二值圖像的概率估計， x_i取 +1 或 -1 ，可以預測每個像素的概率值 p(x_i = +1 | x₁, ... , x_i-1) 。這篇文章提出了一種神經自回歸分布估計方法（the neural autoregressive distribution estimator，NADE），即對每個像素使用一個隱層的前饋網絡，並在這些網絡中共享參數。參數共享也有助於加速每個像素的計算。在[37]中也有類似的工作，其中前饋網絡也有跳過隱層的連接，並且參數也被共享。[58]和[37]都對二值化的MNIST數據集（http://yann.lecun.com/exdb/mnist/.）進行了實驗。Uria等人[116]將NADE擴展到實值NADE（real-valued NADE，RNADE），其中概率p(x_i | x₁, ... , x_i-1)由高斯混合分布構成，前饋網絡需要為高斯混合模型輸出一組參數，而不是NADE中的單個值。他們的前饋網絡有一個隱層和參數共享，但隱層加入了重新縮放以避免飽和，並使用校正線性單元（rectified linear unit，ReLU）[90]而不是sigmoid。他們還考慮到拉普拉斯混合分布而不是高斯混合分布。他們在 8 x 8 的自然圖像進行了實驗，其中將像素值加入噪聲，轉換為真實值。在[117]中，NADE和RNADE通過使用不同的像素順序以及網絡中使用更多隱層來改進。在[120]中，通過使用深度GMM來增強高斯混合模型（the Gaussian mixture model，GMM），RNADE得到了改進。

　　先進網絡的設計是提高像素概率建模的重要課題。在[109]中，提出了基於多維長短期存儲器（long short-term memory，LSTM）的網絡，以及對條件高斯尺度混合的混合。后者是GMM的一個推廣，用於概率建模。LSTM是一種遞歸神經網絡（RNNs），被認為擅長對序列數據進行建模。LSTM的空間變體被用於圖像。然后在[118]中，研究了幾個不同的網絡，包括RNNs和CNNs，分別被稱為PixelRNN和PixelCNN。對於PixelRNN，提出了兩種LSTM變體，稱為行LSTM和對角線BiLSTM，后者專門為圖像設計。PixelRNN整合了殘差連接[40]來幫助訓練高達12層的深度網絡。對於PixelRNN，為了適應上下文的形狀（見圖1），提出了掩碼卷積(masked convolutions)。PixelCNN也有15層的深度。與之前的作品相比，PixelRNN和PixelCNN更專注於自然圖像：他們將像素視為離散值（例如0，1，……，255），並預測離散值的多項式分布；他們處理彩色圖像（在RGB顏色空間中）；多尺度PixelRNN被提出；它們在CIFAR-10和ImageNet數據集上工作得很好。相當多的研究遵循了PixelRNN和PixelCNN的方法。在[119]中，門控PixelCNN(Gated PixelCNN)被提出以改進PixelCNN，並達到與PixelCNN相當的性能，但其復雜性要低得多。在[99]中，PixelCNN++提出了對PixelCNN的以下改進：使用離散化的邏輯混合概率而不是256路多項式分布；下采樣用於捕獲多分辨率的結構；為加速訓練引入了額外的短路連接；正則化采用隨機失活(Dropout)；一個像素包含RGB。在[18]中，提出了PixelSNAIL，其中隨意卷積(casual convolutions)與自我注意力(self attention)相結合。

　　上面提到的大多數工作都直接模擬像素概率。此外，像素概率可以通過顯式或隱式表示作為條件概率建模。也就是說，我們可以估計：

其中 h 是附加條件。還要注意，p(x)=p(h)p(x|h)，這意味着建模分為無條件的和有條件的。例如，在[119]中，附加條件可以是由另一個深度網絡派生的圖像類或高級圖像表示。在[56]中，考慮了帶有潛在變量的PixelCNN，其中潛在變量來自原始圖像：它們可以是原始彩色圖像的量化灰度版本，也可以是多分辨率圖像金字塔。

　　對於實際的圖像編碼方案，在[64]中，采用了一個具有修剪卷積的網絡來預測二進制數據的概率，而一個8位的灰度圖像（大小為 m x n ）被轉換成一個 m x n x 8 的二進制立方體，由網絡進行處理。該網絡類似於PixelCNN，但是三維的。據報道，基於網絡的修剪卷積算術編碼（The trimmed convolutional network-based arithmetic encoding，TCAE）比以前的非深度無損編碼方案（如TIFF、GIF、PNG、JPEG-LS和JPEG 2000-LS）要好。在 Kodak 圖像集中，TCAE達到2.00的壓縮比。不同的是，在[4]中，CNN用於小波變換域，而不是像素域，即CNN用於從相鄰子帶內的系數預測小波細節系數。

　　對於視頻編碼，在[52]中，PixelCNN被概括為視頻像素網絡（video pixel network，VPN），用於視頻像素概率建模。VPN由CNN編碼器（用於預測當前幀）和PixelCNN解碼器（用於當前幀內的預測）。CNN編碼器在所有層保留輸入幀的空間分辨率，以最大化表示能力。采用擴張卷積擴大接收場，更好地捕捉全局運動。隨着時間的推移，CNN編碼器的輸出與一個卷積LSTM相結合，該LSTM還保留了分辨率。PixelCNN解碼器使用屏蔽卷積，並在離散像素值上采用多項式分布。

　　此外，Schiopu等人[101]研究一種無損圖像編碼方案，他們使用CNN預測像素值，而不是其分布。預測值從實際像素值中減去，從而產生殘差，然后進行編碼。此外，他們還考慮了CNN預測器和一些非CNN預測器中的自適應選擇。

B. Auto-Encoder:

　　自動編碼器源於Hinton和Salakhutdinov[42]的著名工作，通過訓練一個由編碼部分和解碼部分組成的網絡進行降維。編碼部分將輸入的高維信號轉換為低維表示，解碼部分從低維表示中恢復（不完全）高維信號。自動編碼器實現了表示的自動學習，消除了手工制作功能的需要，這也是深度學習最重要的優點之一。

　　采用自動編碼器網絡進行有損圖像編碼似乎很簡單：編碼和解碼都經過訓練，我們只需要對學習到的表示進行編碼。然而，傳統的自動編碼器沒有針對壓縮進行優化，直接使用一個訓練好的自動編碼器不是一種有效的手段[127]。當我們考慮到壓縮需求時，有幾個挑戰：首先，對低維表示進行量化，然后進行編碼，但量化步驟不可微，使得網絡訓練困難。第二，有損編碼是為了在碼率和質量之間實現更好的權衡，因此在訓練網絡時應考慮碼率，但碼率不容易計算或估計。第三，一個實用的圖像編碼方案需要考慮可變碼率、可伸縮性、編碼/解碼速度、互操作性等因素。針對這些挑戰，近年來進行了大量的研究。

　　基於自動編碼器的圖像編碼方案的概念圖如下圖所示，這是一種典型的變換編碼策略。

　　在網絡結構上，RNN和CNN是應用最廣泛的兩類。最具代表性的作品包括：

Toderici等人[111]提出了一種可變碼率圖像壓縮的通用框架。他們使用二值化來生成代碼，並且在訓練過程中不考慮碼率，即損失只是端到端的失真，用MSE度量。他們的框架確實提供了一個可擴展的編碼功能，其中具有卷積和反卷積層的RNN（特別是LSTM），據報道性能良好。對 32 x 32 的縮略圖，他們提供了在大規模數據集上的測試結果。后來，Toderici等人[112]提出了一個改進的版本，他們使用PixelRNN[118]這樣的神經網絡來壓縮二進制代碼；他們還引入了一個新的門控循環單元（gated recurrent unit，GRU），其靈感來自於殘差網絡（the residual network，ResNet）[40]。他們在使用MS-SSIM作為質量度量的Kodak圖像集上得到了比JPEG更好的結果。Johnston等人[51]進一步改進基於RNN的方法，使用SSIM加權損失函數將隱藏狀態啟動引入RNN，並啟動空間自適應比特率。他們在使用MS-SSIM作為質量度量的Kodak圖像集上獲得了比BPG更好的效果。Covell等人[22]通過訓練允許停止代碼的RNN來啟用空間自適應比特率。
Ball'e等人[9]提出了率失真優化圖像壓縮的通用框架。他們使用多變量量化來生成整數代碼，並在訓練期間考慮碼率，即損失是率失真聯合成本，其中失真可能是MSE或其他。為了估計碼率，他們在訓練過程中使用隨機噪聲代替量化，並使用噪聲“代碼”的差分熵作為碼率的代表。對於網絡結構，采用了廣義除數歸一化（the generalized divisive normalization，GDN）變換，該變換由線性映射（矩陣乘法）和非線性參數歸一化組成。在[8]中驗證了GDN對圖像編碼的有效性。后來，Ball'e等人[10]提出一個改進的版本，其中他們使用3個卷積層，每個卷積層后緊接着下采樣和一個GDN操作來實現變換；相應地，使用3個逆GDN+上采樣+卷積層來實現反變換。此外，他們還設計了一種算術編碼方法來壓縮整數碼。他們在使用MSE作為質量度量的Kodak圖像集上取得了比JPEG和JPEG 2000更好的結果。此外，Ball'e等人[11]通過在自動編碼器中加入一個尺度超先驗來改進他們的方案，這是受到變分自動編碼器的啟發[55]。他們使用另一個變換 h_a將 y 轉換為 w=h_a（y），對 w 進行量化和編碼（作為邊信息傳輸），並使用另一個反變換 h_s 將解碼后的 w^{^}轉換為量化后的 y^{^}的估計標准偏差，然后在對 y^{^}進行算術編碼時使用。在Kodak圖像集上使用PSNR作為質量度量，他們的方法只比BPG稍差。

　　除[9]外，一些工作還集中於處理不可微量化和/或碼率估計。Theis等人[110]采用一種非常簡單的方法進行量化：量化通常在前通中進行，但梯度直接通過后通中的量化層。令人驚訝的是，這項工作進展順利。此外，他們將碼率替換成了一個可微的上界。Dumas等人[29]考慮一個隨機優勝者全得機制，其中 y 中具有最大絕對值的條目被保留，其他條目被設置為0；然后這些條目被統一量化和壓縮。Agustsson等人[2]提出一種從軟到硬的矢量量化方案，在該方案中，他們在訓練過程中使用軟量化（即分配一個表征給具有不同成員值的多個代碼），而不是硬量化（即分配一個表征給僅一個代碼），並且他們采用退火過程使軟量化方法逐漸向硬量化轉變。值得注意的是他們的計划利用了矢量量化而其他作品通常采用標量量化。Li等人[65]引入一個用於碼率估計的重要性圖，重要性圖被量化為一個掩模，掩模決定每個位置保留多少比特，因此重要性圖的和可以用作編碼碼率的粗略估計。

　　除[111]外，一些工作還考慮了可變碼率的功能，對不同碼率進行較少訓練或者不進行訓練。在[110]中，引入了比例參數，並針對不同的碼率對預訓練的自動編碼器進行了微調。在[30]中提出了一種由學習得到的獨特變換，以及針對不同碼率的可變量化步驟。在[15]中，針對所有尺度對多尺度分解變換進行了訓練和優化；並提供了碼率分配算法，針對目標碼率或目標質量因子，確定每個圖像塊的最佳尺度。此外，可伸縮編碼在[146]中的考慮與在[111]中的不同。在[146]中，圖像被分解成多個位平面，並被並行轉換和量化；為了減少不同位平面之間的相關性，提出了雙向組合選通單元。

　　有幾項工作考慮了先進的網絡結構和不同的損失函數。Theis等人[110]采用亞像素結構以提高計算效率。Rippel和Bourdev[97]提出了一個金字塔分解，然后是規模間校准網絡，它是輕量級的，並且實時運行。除重建損失外，他們還使用了鑒別損失。Snell等人[104]使用MS-SSIM作為損失函數，而不是MSE或平均絕對誤差（MAE）來訓練自動編碼器，他們發現MS-SSIM能夠更好地校准感知質量。Zhou等[149]使用更深的網絡設計編碼器/解碼器，並在解碼器中使用單獨的網絡進行后處理。他們還將[11]中的高斯模型替換為拉普拉斯模型。

　　如前所述，像素概率模型表示預測編碼，自動編碼器表示變換編碼。這兩種策略可以結合起來提高壓縮效率。Mentzer等人[87]提出了一種實用的無損圖像編碼方案，利用多層次的自動編碼器學習像素概率建模的條件。Mentzer等人[86]將像素概率建模（a 3D PixelCNN）集成到自動編碼器中，以估計編碼碼率，並對PixelCNN和自動編碼器進行聯合訓練。Baig等人[6]在可變碼率壓縮框架[111]中引入局部上下文圖像，該框架實際上是根據塊的上下文預測塊，假設塊按光柵掃描順序逐個編碼/解碼。將預測信號加到網絡輸出信號上，實現 x^{^}，即變換編碼網絡處理預測殘差。Minen等人[89]另外考慮各區塊之間的碼率分配。同樣，但以不同的方式，Minnen等人[88]在[11]基礎上改進，通過增加超先驗與上下文，即他們不僅使用 w^{^}而且還使用上下文來預測每次進入 y^{^}的概率。他們的方法在使用PSNR作為質量度量的Kodak圖像集上優於BPG，這代表了到2018年底的最新技術。Lee等人[60]將上下文自適應熵模型引入超先驗W^{^}。

　　此外，Cheng等人[21]將主成分分析應用於所學的表征中，這實際上是第二個變換。

C. Video Coding:

　　從2017年開始，對深度視頻編碼方案進行了一些研究。與圖像編碼相比，視頻編碼需要有效的方法來消除圖像間的冗余。幀間預測是這些研究中的一個重要問題。運動估計和運動補償被廣泛采用，但直到最近才由經過訓練的深度網絡實現。

　　Chen等人[17]似乎是第一個使用經過訓練的深度網絡作為自動編碼器來實現視頻編碼方案的人。具體來說，他們將視頻幀分為 32 x 32 的塊，每個塊從兩種模式中進行選擇：幀內編碼或幀間編碼。如果采用幀內編碼，會有一個自動編碼器對塊進行壓縮。如果采用幀間編碼，則采用傳統的方法進行運動估計和運動補償，並將殘差輸入到另一個自動編碼器中。對於這兩個自動編碼器，編碼方式是采用哈夫曼方法直接進行量化和編碼。這個方案相當粗糙，無法與H.264相比。

　　Wu等人[131]提出一種具有圖像插值的視頻編碼方案，其中關鍵幀（I幀）首先由[112]中的深度圖像編碼方案壓縮，然后將其余幀（B幀）按層次順序進行壓縮。對於每個B幀，使用前后兩個壓縮幀（I幀或之前壓縮的B幀）來對當前幀進行“插值”操作：運動信息用於對兩個壓縮幀進行運動補償，然后將處理后的兩個幀作為邊信息發送到可變碼率圖像編碼方案來處理當前幀。據報道，該方案的效果與H.264相當。

　　Chen等人[20]提出另一個視頻編碼方案PixelMotionCNN。在他們的方案中，每個幀按時間順序進行壓縮，並且按光柵掃描順序被分成塊。在壓縮一個幀之前，前兩個壓縮幀用於“外推”當前幀。當一個塊被壓縮時，外推幀連同該塊的上下文被發送到PixelMotionCNN以生成當前塊的預測信號，然后通過[112]中的可變碼率圖像編碼方案來壓縮預測殘差。該方案的性能也與H.264相當。

　　 Lu等人[80]提出了一種真正端到端的深度視頻編碼方案，可以看作是傳統視頻編碼方案的“深化”版本。具體地說，在其方案中，對於要壓縮的幀，使用光流估計模塊來獲取幀與已壓縮幀之間的運動信息。運動補償也由經過訓練的網絡執行，以生成當前幀的預測信號。對預測殘差和運動信息分別采用兩個自動編碼器進行壓縮。整個網絡采用單損失函數進行聯合優化，即聯合率失真成本。據報道，該方案比H.264具有更好的壓縮效率，在使用MS-SSIM進行評估時甚至優於HEVC（x265編碼器）。

　　Rippel等人[98]提出了迄今為止最復雜的深度視頻編碼方案，它繼承並擴展了傳統視頻編碼方案的深化版本。其方案具有以下新特點：（1）只有一個自動編碼器可以同時壓縮運動信息和預測殘差；（2）從以前的幀中學習並遞歸更新的狀態；（3）多幀多光流的運動補償；（4）碼率控制算法。據報道，使用MS-SSIM進行評估時，該方案優於HEVC參考軟件（HM）。

　　到2018年底，我們沒有觀察到任何報告顯示，深度視頻編碼方案在用PSNR評估時優於HM，這似乎是一項艱巨的任務。

D. Special-Purpose Coding:

　　關於深度方案的研究大多涉及圖像/視頻編碼的信號保真度，即在給定的碼率下盡量減少原始圖像/視頻和重建圖像/視頻之間的失真，其中失真可以定義為MSE或其他差異。但是，如果我們不關心圖像/視頻的保真度，我們可能會關心重建圖像/視頻的感知自然性，或者重建圖像/視頻在語義分析任務中的效用。后兩種質量度量稱為感知自然性和語義質量。有一些工作專門為這些質量指標定制圖像/視頻編碼。

1）感知編碼：自生成對抗網絡（GAN）的興起[34]以來，深度網絡被認為能夠生成感知自然圖像。利用解碼器端的這種能力，可以提高解碼圖像的感知質量。與普通的GANs中的生成器不同，解碼器還應保證解碼后的圖像與原始圖像相似，這就產生了一個受控生成的問題，編碼器實際上在編碼比特中提供了控制信號。

　　受到變量自動編碼器（the variational auto-encoder，VAE）[55]的啟發，Gregor等人[36]提出了一種用於圖像生成的Deep Recurrent Attentive Writer(DRAW)，它利用RNN作為編碼器和解碼器擴展了傳統的VAE。展開編碼器RNN會產生一系列潛在的表示。然后，Gregor等人[35]引入卷積DRAW，觀察到它能夠將圖像轉換為一系列越來越詳細的表示，范圍從全局概念方面到低級細節。因此，他們提出了一種概念性壓縮方案，其一個好處是以非常低的比特率實現可信的重建圖像。

　　感知自然性可以由GAN[14]中的鑒別器來評價。一些工作對利用單獨的鑒別損失/與MSE或其它損失的聯合損失函數進行感知質量深度編碼的方案進行了研究。例如，Santurkar等人[100]提出所謂的圖像和視頻的生成壓縮方案。對於圖像，他們首先訓練一個標准的GAN，然后使用生成器作為解碼器，修復它，以最小化MSE和特征損失的總和作為指標訓練編碼器。對於視頻，他們重新使用經過圖像訓練的編碼器和解碼器，只傳輸幾個幀，並通過插值恢復解碼器端的其他幀。它們的方案能夠實現很高的壓縮比。Kim等人[54]建立一個新的視頻壓縮方案，其中一些關鍵幀通常被壓縮（通過H.264），而其他幀則被極度壓縮。實際上，邊緣是從下采樣的非關鍵幀中提取並傳輸的。在解碼器端，首先對關鍵幀進行重構，然后對關鍵幀進行邊緣提取。條件GAN通過以邊緣為條件的重構關鍵幀進行訓練，然后使用條件GAN生成非關鍵幀。同樣，他們的方案在非常低的比特率下表現良好。

2）語義編碼：對保存語義信息或關注語義質量的深度編碼方案進行了研究。

　　Agustsson等人[3]提供了一種基於GAN的極低比特率圖像壓縮方案。該方案結合了自動編碼器和GAN，將解碼器和生成器結合在一起。另外，可以將語義標簽圖用作對編碼器的附加輸入，並用作鑒別的條件。報告表明，此方案以較高的語義質量對圖像進行了重構。在相同碼率條件下，在這些圖像上進行語義分割比在BPG壓縮圖像上更加准確。

　　Luo等人[81]提出一個深度語義圖像壓縮概念（DeepSIC），將語義信息（e.g.類別）納入編碼位中。這里有兩種版本的DeepSIC，都是基於自動編碼器實現的。在第一個版本中，從表征y中提取語義信息，並將其編碼到比特。在另一個版本中，語義信息不進行編碼，而是從解碼器端提取量化后的表征y^{^}。Torfason等人[113]用量化后的表征而不是量化后的重建圖像來進行語義分析任務（分類和語義分割）。說到這個，解碼過程被取消了。他們表示，分類和分割精度值在表征和圖像之間非常緊密，但計算復雜性被顯著降低。Zhang等人[143]提出了一個深度圖像編碼方案，同時完成壓縮和檢索任務。他們的動機是，編碼得到的比特不僅可以用於重構圖像，還可以在不解碼的情況下對圖像進行檢索。他們使用自動編碼器將圖像壓縮到比特，並使用修改過的分類網絡提取二值特征。然后將兩個比特部分結合起來，並對用於圖像檢索的特征提取網絡進行微調。其結果表明，在相同的碼率下，重構的圖像優於JPEG壓縮的圖像，並且由於微調而提高了檢索精度。

　　Akbari等人[5]設計一個可縮放的圖像編碼方案，其中編碼比特由三層組成。第一層是無損編碼的語義分割圖；第二層是對原始圖像的下采樣的無損編碼。隨着前兩層，一個網絡被訓練來預測原始圖像，預測殘差被BPG編碼為第三層。在用PSNR和MS-SSIM作為質量評價指標的Kodak圖像集上，該方案超過了BPG。

　　Chen和He[19]考慮了利用語義質量度量代替PSNR或感知質量的面部圖像深度編碼方案。為了這個目的，他們的損失函數有三個部分：MAE，鑒別損失以及語義損失，其中語義損失是通過一個學習到的變換將原始圖像和重構圖像投影到一個緊湊的歐幾里得空間中，並計算它們之間的歐幾里得距離。該方案當在以同樣的碼率進行面部鑒別精度評估時，表現非常好。

4、Review of deep tools:

　　在這一部分中，我們回顧了一些有代表性的工作，即在傳統的編碼方案中使用經過訓練的深度網絡作為工具，或與傳統的編碼工具一起使用。一般來說，傳統的視頻編碼方案采用混合編碼策略，即預測編碼和變換編碼相結合。如圖3所示，輸入的視頻序列被划分為圖片幀，圖片幀被划分為塊（最大的塊稱為CTU，在HEVC[108]中可以被分為較小的CUs），塊被划分為不同通道（即Y、U、V）。圖片幀/塊/通道按預先定義的順序進行壓縮，之前壓縮的圖片幀/塊/通道可用於預測以下內容，分別稱為幀內預測（塊間）、跨通道預測（通道間）和幀間預測（圖片間），然后對預測殘差進行變換、量化和熵編碼，以獲得最終的比特。一些輔助信息，如塊划分和預測模式，也被熵編碼成比特（在圖中沒有顯示）。熵編碼步驟采用概率分布預測。由於量化步驟會丟失信息並可能導致偽影，因此建議對重構的視頻進行濾波以增強重建的視頻，該視頻可以在環內（在預測下一個圖像幀之前）或在環外（在輸出之前）執行。此外，為了減少數據量，圖像幀/塊/通道可以在壓縮前進行下采樣，然后進行上采樣。最后，編碼器需要控制不同的模塊，並將它們組合在一起，以實現編碼碼率、質量和計算速率之間的權衡。編碼優化是實際編碼系統中的一個重要課題。

　　訓練好的深度網絡幾乎可以充當圖3所示的所有模塊，我們在圖中指出了深度工具的不同位置。在下面，我們將根據深度工具在整個方案中的使用位置來回顧它們的工作。

A. Intra-Picture Prediction：

　　幀內預測，是一種預測同一張圖片幀中塊之間的工具。H.264引入了幾種預定義的預測模式，如DC預測和不同方向的外推[128]。編碼器可以為每個塊選擇預測模式，並向解碼器發送選擇信號。在模式選擇時，比較不同模式的編碼碼率和失真，然后選擇率失真成本最小的模式是一種常用的策略。在HEVC中，引入了更多的預測模式[108]。

　　如圖4所示，Li等人[63]提出一個全連接網絡用於幀內預測。對於當前的 N x N 塊，他們使用上面的 L 行和左邊的 L 列，總共 4NL + L²像素作為上下文。他們使用一個稱為New York City Library的圖像集來生成訓練數據，其中原始圖像以不同的量化參數（QPs）進行壓縮。在網絡訓練時，他們研究了兩種策略：一個是訓練一個包含所有訓練數據的模型，另一個是根據HEVC預測模式將訓練數據分成兩組，分別訓練兩個模型。這兩個模型的策略對於壓縮任務效果更好。他們將訓練后的網絡作為新的預測模式與HEVC模式相結合。測試表明，該方案的BD率比HM下降了3%。

　　Pfaff等人[94]也采用全連接網絡進行幀內預測，但提出將多個網絡訓練為不同的預測模式。同時，他們提出訓練一個單獨的網絡，其輸入也是塊的上下文，但輸出是不同模式的預測可能性。此外，他們提出對每個基於網絡的預測模式使用不同的變換。該方案的性能很高：與改進版本的HM（帶有高級塊分區）相比，大約降低了6%的BD率。

　　Hu等人[44]為幀內預測設計了一個漸進空間RNN。與上述工作不同，他們建議利用RNN的順序建模能力，從上下文到塊逐步生成預測。此外，他們還建議使用絕對變換差和（SATD）作為損失函數，並認為SATD與率失真成本的相關性更好。

　　Cui等人[23]考慮用CNN作幀內預測，或者更具體地說，幀內預測細化。他們使用HEVC預測模式生成預測，然后使用經過訓練的CNN來完善預測。值得注意的是，CNN不僅有HEVC的預測，而且還有作為其輸入的上下文。這種方法似乎只取得邊際收益。

B. Inter-Picture Prediction：

　　幀間預測，是一種用來在視頻幀之間進行預測，從而消除時間冗余的工具。幀間預測是視頻編碼的核心，它在很大程度上決定了視頻編碼方案的壓縮效率。在傳統的視頻編碼方案中，幀間預測主要由塊級運動估計（ME）和運動補償（MC）實現。給定一個參考幀和一個要編碼的塊，運動估計將在參考幀中查找與待編碼塊內的內容最相似的位置，運動補償則是在找到的位置檢索得到對應內容，以便對該塊進行預測。許多方法被提出以改進塊級運動估計和運動補償，例如多參考幀、雙向預測（即聯合使用兩個參考幀）、亞像素運動估計和運動補償等。

　　受多參考幀的啟發，Lin等人[71]通過外推多個參考幀，提出一種新的幀內預測機制。具體地說，他們采用了GANs的拉普拉斯金字塔來從先前壓縮的四個幀中外推出一個幀。這個外推幀可以用作其他幀的參考幀。他們報告表明該方法的BD率比HM降低了2%左右。

　　受雙向預測的啟發，Zhao等人[148]提出了一種提高預測質量的方法。以前的雙向預測只是計算兩個預測塊的線性組合。他們提出采用訓練好的CNN以非線性和數據驅動的方式將這兩個預測塊結合起來。

　　受亞像素運動估計和運動補償的啟發，對分數像素插值問題進行了大量的研究，其目的是在參考幀上的分數位置生成虛像素，因為兩幀之間的運動不與整數像素對齊。在這里，一個主要的困難是如何准備訓練數據，因為分數像素是虛構的。Yan等人[137]提出使用CNN進行半像素插值，其中他們提出一種方法，將高分辨率圖像變模糊，然后從模糊圖像中采樣像素：奇數位置為整數像素，偶數位置為半像素。該方法在[76]中被繼承，作者分析了不同模糊度的影響。Zhang等人[141]提出另一種方法，將分數插值公式化為分辨率增強問題。因此，他們對高分辨率的圖像進行下采樣來得到訓練數據。Yan等人[136]考慮另一個公式，將分數像素運動補償視為幀間回歸問題。他們使用視頻序列來檢索訓練數據，在訓練過程中，他們依靠分數像素運動估計來對齊不同的幀，使用參考幀作為整數像素，並將當前幀作為分數像素。Yan等人[135]進一步發現分數插值問題的一個關鍵特征，即其可逆性：如果分數像素可以從整數像素中插值得到，那么整數像素也應該可以從分數像素中插值得到。基於可逆性，他們提出了一種無監督的CNN半像素插值訓練方法。

　　除了提高幀間預測方法外，另一種方法還考慮將幀內預測和幀間預測結合在一起。具體來說，預測信號的生成不僅基於參考幀，而且基於當前幀中的上下文。例如，Huo等人[45]提出使用訓練好的CNN來完善幀間預測信號。他們發現，利用待預測塊的上下文可以提高預測質量。同樣，Wang等人[124]還通過CNN細化幀間預測信號，其中CNN輸入包括幀間預測信號、當前塊的上下文和幀間預測塊的上下文。

C. Cross-Channel Prediction：

　　跨通道預測是指不同通道之間的預測。在YUV格式中，亮度通道（Y）通常在色度通道（U和V）之前編碼。因此，可以從Y預測U，從Y和U預測V。一種傳統的方法，稱為線性模型（LM），用於跨通道預測。LM的關鍵思想是，可以使用線性函數從亮度預測色度，但不傳輸函數的系數；相反，通過執行線性回歸從上下文估計色度。這個線性假設似乎過於簡化了。

　　Baig和Torresani[7]研究了圖像壓縮的彩色化。彩色化是從亮度中預測色度，這是一個不適定的問題，因為一個亮值可以對應多個色度值。因此，他們提出了一個樹形結構的CNN，給定一個灰度圖像作為輸入，它能夠生成多個預測（稱為多個假設）。當用於壓縮時，經過訓練的CNN應用於編碼器端，產生最佳預測信號的分支作為邊信息被編碼傳輸到解碼器端。他們將該方法集成到JPEG中，而不改變亮度的編碼，實驗結果表明，該方法在色度編碼方面優於JPEG。

　　Li等人[67]提出一種類似於LM的跨通道預測方法。特別地，他們設計了一個由全連接部分和卷積部分組成的混合神經網絡。前者用於處理上下文，包括三個通道，后者用於處理當前塊的亮度通道。融合了兩個特征，得到最終的預測結果。這種方法在色度編碼上超過LM約2%的BD率。

D. Probability Distribution Prediction：

　　如前所述，准確的概率估計是熵編碼的關鍵問題。因此，為了提高熵編碼效率，許多研究工作利用深度學習進行概率分布預測。這些工作處理不同部分的信息。例如，每個塊的幀內預測模式都需要發送到解碼器，因此Song等人[106]設計了一個CNN，根據上下文預測幀內預測模式的概率分布。同樣，Pfaff等人[94]使用全連接網絡，根據上下文預測幀內預測模式的概率分布。如果編碼/解碼方案允許多個變換，並且每個塊可以分配一個變換模式，那Puri等人[96]提出使用CNN預測基於量化變換系數的變換模式的概率分布。在最近的一項研究中，Ma等人[82]考慮量化變換系數的熵編碼，特別是直流系數。他們設計了一個CNN，從塊的上下文以及塊的交流系數來預測塊的直流系數的概率分布。

E. Transform：

　　變換是混合視頻編碼框架中的一個重要工具，它可以將信號（通常是殘差）轉換成系數，然后進行量化和編碼。視頻編碼方案一開始采用離散余弦變換（DCT），而后在H.264中用整數余弦變換（ICT）代替。HEVC也采用了ICT，但對 4 x 4 的亮度塊采用了整數正弦變換。自適應多重變換和二次變換也有所研究。盡管如此，所有這些變換仍然非常簡單。

　　受自動編碼器啟發，Liu等人[73]提出了一種基於CNN且類似於DCT的變換方法。該變換由CNN和全連接層組成，其中CNN對輸入塊進行預處理，全連接層完成變換。在它們的實現中，全連接層由DCT的變換矩陣進行初始化，然后與CNN一起訓練。它們使用聯合率失真成本來訓練網絡，其中碼率由量化系數的L1范數估計。他們還研究了非對稱自動編碼器，即編碼部分和解碼部分不對稱，不同於傳統的自動編碼器。實驗結果表明，訓練后的變換比固定的DCT變換好，非對稱自編碼可以有效地實現壓縮效率與編碼/解碼時間之間的權衡。

F. Post- or In-Loop Filtering:

　　目前廣泛使用的圖像和視頻編碼方案大多是有損編碼方案，即為了壓縮，重建的圖像/視頻並不完全是原始圖像/視頻。損失通常是由圖3所示的量化過程造成的。當量化步驟較大時，損失也較大，這可能導致重建圖像/視頻中出現可見的偽影，如阻塞、模糊、響鈴、色移和閃爍。濾波是減少這些偽影，提高重建圖像/視頻質量，從而間接提高壓縮效率的工具。對於圖像，濾波也被稱為后處理，因為它不會改變編碼過程。對於視頻，根據濾波后的幀是否用作之后幀的參考，濾波分為環內和環外。在HEVC中，提出了兩種環內濾波器，即去塊濾波器（DF）[91]和樣本自適應偏移（SAO）[31]。

　　基於深度學習的圖像/視頻編碼中，環外或環內濾波占據了大部分相關工作：

早期的工作重點是圖像編碼的后處理，尤其是JPEG。例如，Dong等人[26]提出一個減少壓縮偽影的4層CNN，即ARCNN。當質量因子（QF）介於10到40之間時，ARCNN在5幅經典測試圖像上的PSNR比JPEG提高了1dB以上。Cavigelli等人[16]使用一個更深的CNN（12層）和分層跳接，對從40到76的QF進行了測試。Wang等人[125]利用JPEG壓縮的先驗知識，即 8 x 8 塊DCT系數的量化，提出了一種基於雙域（像素域和變換域）的方法。他們實現了比ARCNN更高的質量和更少的計算時間。在[38]中也對雙域處理進行了研究。Guo和Chao[39]提出了一對多網絡，它是由感知損失、自然損失和JPEG損失相結合的訓練。關於損失函數的另一項工作在[32]中提出，這表明了要像在GAN中一樣使用鑒別損失。Ororbia等人[92]提出一種利用訓練好的RNN實現的迭代后處理方法。最近，一些工作將JPEG后處理作為圖像恢復任務，如去噪或超分辨率，並為一系列圖像恢復任務提出不同的網絡[78]、[140]、[142]、[144]。
在視頻編碼，尤其是HEVC中，對環外濾波的研究越來越多。Dai等人[24]提出一個用於幀內環外濾波的4層CNN，其中CNN具有可變的濾波器大小和殘差連接，並命名為VRCNN。Wang等人[122]使用10層CNN進行環外濾波，訓練CNN對圖像進行濾波，並在視頻幀上使用訓練好的CNN。Yang等人[138]提出分別為I幀和P幀訓練不同的CNN模型，並驗證其增益。Jin等人[50]提出除了MSE損失外，額外使用鑒別損失。Li等人[62]提出將一些邊信息傳送給解碼器，以便從以前訓練過的一組模型中為每幀選擇一個模型。此外，Yang等人[139]提出為了在后處理過程中利用幀間的相關性，可以通過將多個相鄰幀輸入到CNN來增強幀的后處理效果。Wang等人[123]也考慮到幀間的相關性，但使用的是多尺度卷積LSTM。盡管上述工作僅將解碼后的幀作為CNN的輸入，He等人[41]建議將塊划分信息連同解碼幀一起輸入到CNN中。Kang等人[53]也將塊划分信息輸入到CNN中，設計了多尺度網絡。Ma等人[83]向CNN輸入幀內預測信號和解碼后的殘差信號。Song等人[107]將QP和解碼幀輸入到CNN中（他們還對網絡參數進行量化，以確保不同計算平台之間的一致性）。在[114]中提出了一個不同的工作，它沒有直接增強解碼幀；相反，他們提出計算編碼器端的壓縮殘差（即原始視頻減去解碼視頻，以區別於預測殘差），並訓練自動編碼器對壓縮殘差進行編碼並發送到解碼器端。據報道，他們的方法在特定領域的視頻序列上表現良好，例如視頻游戲流服務。
將基於CNN的濾波器集成到編碼循環中更具挑戰性，因為濾波后的幀將作為參考，並會影響其他編碼工具。Park和Kim[93]訓練了一個三層CNN作為HEVC的環路濾波器。他們為兩個QP范圍分別訓練兩個模型：20–29和30–39，並根據其QP為每個幀選用一個模型。在DF后應用CNN，並關閉SAO。他們還設計了兩個基於CNN的濾波器的應用案例：一個案例中，濾波器基於圖片順序計數（POC）應用於指定的幀；另一個案例中，濾波器針對每個幀進行測試，如果提高了質量，則應用它，在這種情況下，每個幀都將一個二進制標志發送給解碼器。Meng等人[85]使用LSTM作為環內濾波器，該濾波器在HEVC中的DF之后和SAO之前應用。該網絡以塊划分信息和解碼后的幀作為輸入，並結合MS-SSIM損失和MAE損失進行訓練。Zhang等人[145]提出一個殘差快速通道CNN（RHCNN），用於HEVC中的環內濾波。基於RHCNN的濾波器在SAO后應用。他們分別為I、P和B幀訓練不同的RHCNN模型。他們還將QPs划分為多個范圍，並為每個范圍培訓一個單獨的模型。Dai等人[25]提出一個叫做VRCNN-ext的深層CNN，用於HEVC中的環內濾波。他們為I幀和P/B幀設計了不同的策略：基於CNN的濾波器取代了I幀的DF和SAO，但在DF之后和SAO之前應用於帶CTU和CU級別控制的P/B幀。在CTU級別，每個CTU都有一個二進制標志，用於控制基於CNN的濾波器的開/關；如果該標志為關，則在CU級別，使用二進制分類器來決定是否為每個CU打開基於CNN的濾波器。Jia等人[46]還考慮在HEVC中使用深層CNN進行環內濾波。該濾波器在SAO之后應用，並由幀和CTU級別標志控制。如果幀級別標志為“關閉”，則省略相應的CTU級別標志。此外，他們訓練多個CNN模型，並訓練一個內容分析網絡，為每個CTU決定一個模型，這節省了CNN模型選擇的部分。

G. Down- and Up-Sampling：

　　視頻技術的一個趨勢是在不同的維度上提高分辨率，例如空間分辨率（即像素數）、時間分辨率（即幀率）和像素值分辨率（即比特深度）。分辨率的提高導致數據量的成倍增加，這對視頻傳輸系統提出了巨大的挑戰。當傳輸帶寬受到限制時（例如使用2G或3G移動網絡），通常的做法是在編碼前降低視頻分辨率，在解碼后提高視頻分辨率。這被稱為基於上下采樣的編碼策略。上下采樣可以在空間域、時間域、像素值域或這些域的組合中執行。傳統的上下采樣濾波器通常是手工制作的。最近，有人提議將深層網絡訓練為高效視頻編碼的上下采樣濾波器。相關研究分為兩類。

　　第一類的重點是將深層網絡訓練為僅上采樣濾波器，同時仍使用手工制作的下采樣濾波器。這是受超分辨率成功的啟發，例如[27]。例如，在[1]中，提出了一種聯合空間和像素值的下采樣，其中空間下采樣是通過手工制作的低通濾波器實現的，像素值下采樣是通過按位右移實現的。在編碼器端，使用支持向量機來決定是否對每個幀執行下采樣。在解碼器方面，CNN接受了訓練，可以將解碼后的視頻上采樣到原始分辨率。在[69]中，Li等人只考慮空間下采樣，這也是一個手工制作的濾波器，並訓練CNN的上采樣。但與[1]不同，他們提出了一種塊自適應分辨率編碼（BARC）框架。具體來說，對於幀內的每個塊，它們考慮兩種編碼模式：下采樣后編碼和直接編碼。編碼器可以為每個塊選擇一個模式，並向解碼器發送所選模式的信號。此外，在下采樣編碼模式下，他們進一步設計了兩個子模式：使用手工制作的簡單濾波器進行上采樣，和使用經過訓練的CNN進行上采樣。子模式也向解碼器發出信號。Li等人[69]研究的BARC僅針對I幀。后來，Lin等人[72]擴展了P幀和B幀的BARC框架，構建了一個完整的基於BARC的視頻編碼方案。當上述工作在像素域中執行下采樣時，Liu等人[77]建議在殘差域中進行下采樣，即對幀間預測殘差進行下采樣，並由經過訓練的CNN在考慮預測信號的情況下對殘差進行上采樣。它們也遵循BARC框架。

　　第二類不僅訓練上采樣，還訓練下采樣過濾器，以允許更多的靈活性。例如，在[47]中，研究了具有兩個CNN的壓縮框架。第一個CNN對圖像進行下采樣，然后由現有圖像編碼器（如JPEG和BPG）壓縮下采樣圖像，然后解碼，第二個CNN對解碼圖像進行上采樣。這個框架的一個缺點是它不能接受端到端的訓練，因為圖像編碼器/解碼器不可區分。為了解決這個問題，Jiang等人[47]選擇優化兩個CNN。不同的是，Zhao等人[147]使用實際上是CNN的虛擬編解碼器來近似編碼器/解碼器的功能，並將其進行取代；他們還插入CNN，在上采樣CNN之前執行后處理；他們的方案是完全卷積的，並且可以進行端到端的訓練。此外，Li等人[68]在訓練過程中，只需去掉編碼器/解碼器，並只保留兩個CNN，考慮到下采樣圖像會被壓縮，他們提出了一種新的訓練正則化損失，要求下采樣圖像與理想的低通和抽取（用手工濾波器近似）沒有太大的不同。在對CNN進行上下采樣聯合訓練時，驗證了正則化損失對圖像編碼的有效性。

H. Encoding Optimizations：

　　上述深度工具旨在提高壓縮效率，特別是在保持相同的PSNR的同時降低比特率。還有一些針對不同方面的深度工具。在本小節中，我們將回顧幾個針對三個不同目標的深度工具：快速編碼、碼率控制和感興趣區域（ROI）編碼。由於這些工具只在編碼器端使用，所以我們將它們統稱為編碼優化工具。

　　1）快速編碼：對於最先進的視頻編碼標准H.264和HEVC，解碼器計算簡單，但編碼器更復雜。這是因為越來越多的編碼模式被引入到視頻編碼標准中，並且每個塊可以被分配一個不同的模式。每個塊的模式都被發送給解碼器，因此解碼器只需要計算給定的模式。但是，為了找到每個塊的模式，編碼器通常需要比較多個可選模式，並選擇最佳模式，在這種模式下，率失真度要求最優。因此，如果編碼器進行窮盡搜索，那么壓縮效率最高，但計算復雜度也可能很高。任何一個實際的編碼器都會采用啟發式算法來尋找一個更好的模式，在這種模式下機器學習，特別是深度學習會有所幫助。

　　Liu等人[79]介紹了HEVC幀內編碼器的硬件設計，其中他們采用經過訓練的CNN來幫助確定CU划分模式。特別是在HEVC幀內編碼中，CTU遞歸地划分成CUs，形成四叉樹結構。他們訓練好的CNN將根據CU內的內容和指定的QP決定是否拆分32 x 32/16 x 16/8 x 8的CU。實際上，這是一個二元決策問題。Xu等人[134]另外考慮到HEVC幀內編碼器，提出了一個提前終止的分級CNN和一個提前終止的分級LSTM，分別幫助確定I幀和P/B幀的CU划分模式。Jin等人[49]同樣考慮到CU划分模式的決定，但對於輸入的VVC而不是HEVC，因為在VVC中，四叉樹-二叉樹（QTBT）結構是為CU划分設計的，這比HEVC更復雜。他們訓練CNN對32 x 32的CU進行5路的分類，不同的分類表示不同的樹深度。Xu等人[133]研究H.264到HEVC轉碼的CU划分模式決策。他們設計了一個層次化的LSTM網絡，從H.264編碼比特中提取的特征來預測CU划分模式。

　　Song等人[105]研究一種基於CNN的HEVC編碼器快速幀內預測模式決策方法。他們訓練CNN，根據內容和指定的QP，得出每個8 x 8/4 x 4塊的最可能模式列表，然后通過正常的率失真優化過程從列表中選擇一個模式。

　　2）碼率控制：在傳輸帶寬有限的情況下，視頻編碼器試圖產生不會溢出帶寬的比特。這就是所謂的碼率控制要求。

　　一種傳統的碼率控制方法是根據R-λ模型[61]將比特分配給不同的塊。在該模型中，每個塊要確定兩個參數α和β。以前，這些參數是通過經驗公式估計的。在[66]中，Li等人提出訓練CNN來預測每個CTU的參數。實驗結果表明，該方法具有較高的壓縮效率和較低的碼率控制誤差。

　　Hu等人[43]嘗試利用強化學習方法來控制幀內碼率。他們對碼率控制問題和增強學習問題進行了類比：將塊的紋理復雜度和比特平衡視為環境狀態，將量化參數視為代理需要采取的行動，塊的負失真被認為是立即的獎勵。他們訓練神經網絡作為代理。

　　3）ROI編碼：ROI是指圖像中感興趣的區域。在圖像壓縮中，通常要求ROI中的內容質量較高，而非ROI中的內容質量較低。許多圖像編碼方案，如JPEG和JPEG 2000，都支持ROI編碼。然后，如何確定ROI是一個研究問題，並已經通過深度學習解決。Prakash等人[95]提出一種基於CNN的方法來生成多尺度ROI（MS-ROI）圖，以指導后續的JPEG編碼。他們在使用一個訓練過的圖像分類網絡對圖像進行處理，選擇圖像分類網絡預測的前五個類，並確定與這些類對應的區域。因此，他們的MS-ROI圖顯示了與語義分析相關的顯著區域。

5、Case study of DLVC:

　　現在來看看我們開發的DLVC的案例研究，這是一個原型視頻編解碼器。事實上，DLVC是為響應聯合呼吁提出的視頻壓縮提案而開發的，其能力超過了HEVC。現在，DLVC的源代碼已經發布供將來研究（https://github.com/fvc2018/dlvc, http://dlvc.bitahub.com/.）。DLVC是在JEM軟件的基礎上開發的，比JEM有很多改進，特別是它有兩個深度編碼工具：基於CNN的環路濾波器（CNN-ILF）和基於CNN的塊自適應分辨率編碼（CNN-BARC），這兩個工具都是基於經過訓練的CNN模型。DLVC方案如圖5所示。在本節中，我們將重點介紹兩個深度工具。有關DLVC的更多技術細節，請參見技術報告[132]。

A. CNN-Based In-Loop Filter：

　　正如第III-F節所提到的，目前已經對使用經過訓練的CNN模型進行環外或環內濾波進行了大量的研究。CNN-ILF代表了我們在這方面的努力。

　　我們提議的CNN-ILF的網絡結構如圖6所示。受[70]中SR網絡的啟發，我們設計了一個深度CNN，共有16個殘差塊（ResBlocks）和2個卷積層，共34層。每個ResBlock由兩個由ReLU映射分隔的卷積層和一個跳過連接組成。整個網絡具有從輸入到輸出的全局跳過連接。這些跳躍連接對於訓練一個有效的網絡和加速訓練中的收斂至關重要。

　　為了訓練網絡，我們使用了一組自然圖像，並在不同的QPs下通過DLVC幀內編碼（關閉所有的環內濾波器）壓縮每個圖像。我們為每個QP訓練一個單獨的模型。我們只使用亮度組件進行訓練，但是訓練后的模型在壓縮期間用於亮度和色度通道。我們將圖像分成70 x 70個子圖像，並對這些子圖像進行置亂，以准備訓練數據。損耗函數為MSE，即網絡輸出圖像與原始未壓縮圖像之間的誤差。我們使用隨機梯度下降算法訓練網絡直到收斂。

　　我們將訓練模型應用於DLVC。CNN-ILF在去塊濾波器之后和樣本自適應偏移之前應用。不同的QPs對應不同的模型，每個幀根據幀的QP選擇一個模型。對於每個CTU，有兩個二進制標志分別控制亮度和色度的CNN-ILF的開/關。這些標志在編碼器端決定並傳輸到解碼器。

B. CNN-Based Block Adaptive Resolution Coding：

　　CNN-BARC是一種基於上下采樣的編碼工具，它使用經過訓練的CNN模型作為上下采樣濾波器。在DLVC中，CNN-BARC僅用於幀內編碼。每個CTU都決定了下采樣編碼或直接編碼模式，下采樣編碼模式有兩個子模式：使用CNN進行下采樣和上采樣，使用簡單的內插濾波器進行下采樣和上采樣。所有模式和子模式都由編碼器決定，並向解碼器發出信號。

　　上下采樣網絡如圖7所示。具體來說，向下采樣CNN（CNN-DS）有10個卷積層，其中第一層的步幅為2，以實現2x的向下尺寸。CNN-DS也接受殘差學習，但這里的原始圖像是雙三次下采樣，作為跳過連接。上采樣CNN（CNN-US）類似於[70]中的SR網絡，具有16個ResBlock、3個卷積層、1個反卷積層和一個全局跳過連接。

　　CNN-DS和CNN-US分四步進行訓練。首先，我們去除CNN-DS中的卷積層，使其成為一個簡單的雙三次下采樣，並訓練CNN-US最小化端到端的MSE（即原始圖像和下采樣的上采樣圖像之間的誤差）。第二，我們添加CNN-DS的層，固定CNN-US的參數，訓練CNN-DS最小化端到端的MSE。第三，我們同時對CNN-DS和CNN-US的參數進行微調，采用兩種損耗的組合：一種是端到端的MSE，另一種是下采樣的MSE（即雙三次下采樣圖像和網絡下采樣圖像之間的誤差），后者作為一種正則化界限。第四，我們確定了CNN-DS的參數，並在不同的QPs下，通過DLVC幀內編碼（關閉所有的環內濾波器）壓縮下采樣圖像。對於每個QP，我們訓練一個單獨的CNN-US模型。

　　DLVC編碼器中有兩個關於CNN-BARC的模式選擇步驟。第一種是決定下采樣和上采樣（子）模式，第二種能決定是否執行下采樣。我們比較了不同模式下的率失真成本進行決策。碼率是編碼比特數，失真是原始CTU和重建CTU之間的MSE。為了公平比較，我們總是以原始分辨率計算失真。最后但並非最不重要的是，在幀內壓縮之后，我們再次對下采樣編碼的CTU執行上采樣。有關CNN-BARC的更多詳情，請參見[68]、[69]。

C. Compression Performance：

　　我們在JVET推薦的10個視頻序列上測試了DLVC的壓縮性能。這些序列按空間分辨率分為A類和B類：5個序列具有UHD（3840 x 2160）分辨率，另外5個序列具有HD（1920 x 1080）分辨率。測試了不同的編碼配置，包括全幀內（AI）、低延遲（LD）和隨機存取（RA）。我們將DLVC與HEVC參考軟件（HM版本16.16，https://hevc.hhi.fraunhofer.de/svn/svn HEVCSoftware/tags/HM-16.16/. 及其變體，以及JEM版本7.0，https://jvet.hhi.fraunhofer.de/svn/svn HMJEMSoftware/tags/HM-16.6-JEM-7.0/. ）進行了比較，並使用BD率[13]來測量相對壓縮效率。

　　表II給出了與HEVC相比，DLVC的BD率結果。顯然，DLVC大大提高了壓縮效率。考慮到Y通道，在RA和LD配置下，DLVC平均比HEVC降低39.6%和33.0%的BD率。結果表明，用DLVC代替HEVC，在不降低重建質量的前提下，可以使比特降低30%以上。

　　表III給出了與JEM相比，DLVC（文件編號J0032）的BD率結果。為了進行比較，我們還將響應聯合提案要求的其他提案的BD率結果包括在內。考慮到Y通道，在RA和LD配置下，DLVC的平均BD率分別比JEM降低10.1%和11.8%。從BD率的角度來看，DLVC是最佳方案之一。

　　表IV驗證了擬議的CNN-ILF的有效性。具體地說，我們使用了一個HM的變體，它添加了QTBT結構，其優於vanilla HM。我們將CNN-ILF集成到錨中，並打開/關閉CNN-ILF進行比較。如表所示，CNN-ILF實現了顯著的BD率降低：在RA、LD、AI配置下，Y通道的平均值分別為5.5%、5.2%、6.4%。

　　表V驗證了擬議的CNN-BARC的有效性。我們使用HM的另一個變體添加了四叉樹-二叉樹-三叉樹（QTBTTT）結構，這進一步優於HM加QTBT。我們將CNN-BARC集成到錨中，並打開/關閉CNN-BARC進行比較。如圖所示，CNN-BARC在AI配置下實現了顯著的BD率降低：Y通道的平均值為5.4%。由於CNN-BARC僅應用於幀內，因此RA和LD配置下的BD率不那么顯著。

6、Perspectives and conclusions:

A. Open Problems:

深度方案或深度工具。我們應該雄心勃勃地期望深度方案成為視頻編碼的未來，還是應該對傳統非深度方案中的深度工具感到滿意？換言之，非深度方案能否完全被深度方案取代？就目前而言，這個問題的答案可能是“不”，因為深度方案一般不會優於非深度方案的視頻編碼。但是隨着研究的不斷深入，答案可能會通過兩種方式變成“是”：第一，深度方案可能會被改進到明顯優於非深度方案；第二，傳統編碼方案（如HEVC）中的編碼工具可能都會被相應的深度工具所取代，從而導致“深度的”“比以前更好的編碼方案。根據我們的主觀感受，第二種方法可能更實用。

壓縮效率與計算復雜性。將現有的深度工具與傳統非深度方案中的深度工具進行比較，可以發現前者的計算復雜度遠高於后者。高復雜性確實是深度學習的一個普遍問題，也是一個關鍵問題，它阻礙了在有限計算資源（如移動電話）的情況下采用深度網絡。目前，這個一般性問題有兩個方面：一是開發新型、高效、緊湊的深度網絡，保持高性能（即視頻編碼的壓縮效率），但需要的計算量要少得多；二是提倡采用為深度網絡專門設計的硬件。
對感知自然性或語義質量的優化。為自然視頻設計的編碼方案通常用於人類觀看，例如電視、電影、微視頻。對於這些方案來說，重建視頻的質量應該根據人類感知進行評估是很自然的。然而，對於傳統的非深度編碼方案，最廣泛采用的質量度量仍然是PNSR，這與人類的感知能力的對應程度很低。對於深度方案或深度工具，已經做了一些工作來優化它們的感知自然性，例如使用鑒別損失。此外，還有一些編碼方案，用於自動語義分析而不是人的觀看，例如監視視頻編碼。對於這些方案，質量度量應為語義質量[74]，這在很大程度上還未被探索。特別值得注意的是，我們發現信號保真度、感知自然度和語義質量之間存在着權衡[75]，這意味着優化目標應與實際需求相一致。
專業性和普遍性。從一個極端來看，一個編碼方案對任何類型的視頻都是最好的嗎？答案是“否”，這是由於沒有免費午餐定理，這是在機器學習文獻[130]中聲明的，也適用於壓縮。另一個極端是，我們能為每一個視頻制定一個特殊的編碼方案嗎？更不用說實際的困難，這種編碼“策略”是無用的，因為它只不過是為每個視頻分配一個標識符。在這兩個極端之間是實用和有用的編碼方案。也就是說，編碼方案在某種程度上既具有特殊性，又具有普遍性。對於深度方案和深度工具，這意味着訓練數據必須經過精心挑選，以反映感興趣的數據領域。這方面的研究是值得期待的。
多個深度工具的聯合設計。目前，大多數深度工具都是單獨設計的，但是一旦它們被聯合應用，它們就可能無法很好地協作，甚至可能相互沖突。這個根本原因是多個編碼工具確實是相互依賴的。例如，不同的預測工具產生不同的預測，導致殘差信號的變化，因此處理殘差信號的變換工具的性能不同。理想情況下，應聯合設計多個深層工具。但是，這可能很困難，因為工具之間的依賴關系很復雜。

B. Future Work：

　　在可預見的未來，對視頻編碼技術的要求仍在不斷提高。對於娛樂業來說，虛擬現實和增強現實應用程序都在尋求處理新數據的技術，如深度地圖、點雲、3D表面等。對於監控而言，智能分析的需求推動了視頻分辨率的提升。為了科學觀測，越來越多的觀測儀器直接與錄像機相連，產生大量的視頻數據。所有這些要求推動視頻編碼的發展，以實現更高的壓縮效率、更低的計算復雜性和更智能地集成到視頻分析系統中。我們相信基於深度學習的視頻編碼技術對於這些具有挑戰性的目標是有希望的。特別是，我們期望建立一個基於深度網絡的整體框架，並集成圖像/視頻采集、編碼、處理、分析和理解，這確實是模仿人類視覺系統的。

Reference:

[1] M. Afonso, F. Zhang, and D. R. Bull, “Video compression based on spatio-temporal resolution adaptation,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 29, no. 1, pp. 275–280, 2019.
[2] E. Agustsson, F. Mentzer, M. Tschannen, L. Cavigelli, R. Timofte, L. Benini, and L. V. Gool, “Soft-to-hard vector quantization for end-to-end learning compressible representations,” in NIPS, 2017, pp. 1141–1151.
[3] E. Agustsson, M. Tschannen, F. Mentzer, R. Timofte, and L. V. Gool, “Extreme learned image compression with GANs,” in CVPR Workshops, 2018, pp. 2587–2590.
[4] E. Ahanonu, “Lossless image compression using reversible integer wavelet transforms and convolutional neural networks,” Master’s thesis, University of Arizona, 2018.
[5] M. Akbari, J. Liang, and J. Han, “DSSLIC: Deep semantic segmentation-based layered image compression,” in ICASSP, 2019, pp. 2042–2046.
[6] M. H. Baig, V. Koltun, and L. Torresani, “Learning to inpaint for image compression,” in NIPS, 2017, pp. 1246–1255.
[7] M. H. Baig and L. Torresani, “Multiple hypothesis colorization and its application to image compression,” Computer Vision and Image Understanding, vol. 164, pp. 111–123, 2017.
[8] J. Ball´e, “Efficient nonlinear transforms for lossy image compression,” in PCS, 2018, pp. 248–252.
[9] J. Ball´e, V. Laparra, and E. P. Simoncelli, “End-to-end optimization of nonlinear transform codes for perceptual quality,” in PCS. IEEE, 2016, pp. 1–5.
[10] ——, “End-to-end optimized image compression,” arXiv preprint arXiv:1611.01704, 2016.
[11] J. Ball´e, D. Minnen, S. Singh, S. J. Hwang, and N. Johnston, “Variational image compression with a scale hyperprior,” arXiv preprint arXiv:1802.01436, 2018.
[12] Y. Bengio and S. Bengio, “Modeling high-dimensional discrete data with multi-layer neural networks,” in NIPS, 2000, pp. 400–406.
[13] G. Bjontegaard, “Calcuation of average PSNR differences between RD-curves,” VCEG, Tech. Rep. VCEG-M33, 2001.

[14] Y. Blau and T. Michaeli, “The perception-distortion tradeoff,” in CVPR, 2018, pp. 6228–6237.
[15] C. Cai, L. Chen, X. Zhang, and Z. Gao, “Efficient variable rate image compression with multi-scale decomposition network,” IEEE Transactions on Circuits and Systems for Video Technology, DOI: 10.1109/TCSVT.2018.2880492, 2018.
[16] L. Cavigelli, P. Hager, and L. Benini, “CAS-CNN: A deep convolutional neural network for image compression artifact suppression,” in IJCNN. IEEE, 2017, pp. 752–759.
[17] T. Chen, H. Liu, Q. Shen, T. Yue, X. Cao, and Z. Ma, “DeepCoder: A deep neural network based video compression,” in VCIP. IEEE, 2017, pp. 1–4.
[18] X. Chen, N. Mishra, M. Rohaninejad, and P. Abbeel, “PixelSNAIL: An improved autoregressive generative model,” in ICML, 2018, pp. 863–871.
[19] Z. Chen and T. He, “Learning based facial image compression with semantic fidelity metric,” Neurocomputing, vol. 338, pp. 16–25, 2019.
[20] Z. Chen, T. He, X. Jin, and F. Wu, “Learning for video compression,” IEEE Transactions on Circuits and Systems for Video Technology, DOI: 10.1109/TCSVT.2019.2892608, 2019.
[21] Z. Cheng, H. Sun, M. Takeuchi, and J. Katto, “Deep convolutional autoencoder-based lossy image compression,” in PCS. IEEE, 2018, pp. 253–257.
[22] M. Covell, N. Johnston, D. Minnen, S. J. Hwang, J. Shor, S. Singh, D. Vincent, and G. Toderici, “Target-quality image compression with recurrent, convolutional neural networks,” arXiv preprint arXiv:1705.06687, 2017.
[23] W. Cui, T. Zhang, S. Zhang, F. Jiang, W. Zuo, Z. Wan, and D. Zhao, “Convolutional neural networks based intra prediction for HEVC,” in DCC. IEEE, 2017, p. 436.
[24] Y. Dai, D. Liu, and F. Wu, “A convolutional neural network approach for post-processing in HEVC intra coding,” in MMM. Springer, 2017, pp. 28–39.
[25] Y. Dai, D. Liu, Z.-J. Zha, and F. Wu, “A CNN-based in-loop filter with CU classification for HEVC,” in VCIP, 2018, pp. 1–4.
[26] C. Dong, Y. Deng, C. C. Loy, and X. Tang, “Compression artifacts reduction by a deep convolutional network,” in ICCV, 2015, pp. 576–584.
[27] C. Dong, C. C. Loy, K. He, and X. Tang, “Learning a deep convolutional network for image super-resolution,” in ECCV. Springer, 2014, pp. 184–199.
[28] R. D. Dony and S. Haykin, “Neural network approaches to image compression,” Proceedings of the IEEE, vol. 83, no. 2, pp. 288–303, 1995.
[29] T. Dumas, A. Roumy, and C. Guillemot, “Image compression with stochastic winner-take-all auto-encoder,” in ICASSP. IEEE, 2017, pp. 1512–1516.
[30] ——, “Autoencoder based image compression: can the learning be quantization independent?” in ICASSP. IEEE, 2018, pp. 1188–1192.
[31] C.-M. Fu, E. Alshina, A. Alshin, Y.-W. Huang, C.-Y. Chen, C.-Y. Tsai, C.-W. Hsu, S.-M. Lei, J.-H. Park, and W.-J. Han, “Sample adaptive offset in the HEVC standard,” IEEE Transactions on Circuits and Systems for Video technology, vol. 22, no. 12, pp. 1755–1764, 2012.
[32] L. Galteri, L. Seidenari, M. Bertini, and A. Del Bimbo, “Deep generative adversarial compression artifact removal,” in ICCV, 2017, pp. 4826–4835.
[33] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in CVPR, 2014, pp. 580–587.
[34] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in NIPS, 2014, pp. 2672–2680.
[35] K. Gregor, F. Besse, D. J. Rezende, I. Danihelka, and D. Wierstra, “Towards conceptual compression,” in NIPS, 2016, pp. 3549–3557.
[36] K. Gregor, I. Danihelka, A. Graves, D. Rezende, and D. Wierstra, “DRAW: A recurrent neural network for image generation,” in ICML, 2015, pp. 1462–1471.
[37] K. Gregor and Y. LeCun, “Learning representations by maximizing compression,” arXiv preprint arXiv:1108.1169, 2011.
[38] J. Guo and H. Chao, “Building dual-domain representations for compression artifacts reduction,” in ECCV. Springer, 2016, pp. 628–644.
[39] ——, “One-to-many network for visually pleasing compression artifacts reduction,” in CVPR, 2017, pp. 3038–3047.
[40] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016, pp. 770–778.
[41] X. He, Q. Hu, X. Zhang, C. Zhang, W. Lin, and X. Han, “Enhancing HEVC compressed videos with a partition-masked convolutional neural network,” in ICIP. IEEE, 2018, pp. 216–220.
[42] G. E. Hinton and R. R. Salakhutdinov, “Reducing the dimensionality of data with neural networks,” Science, vol. 313, no. 5786, pp. 504–507, 2006.

[43] J.-H. Hu, W.-H. Peng, and C.-H. Chung, “Reinforcement learning for HEVC/H.265 intra-frame rate control,” in ISCAS. IEEE, 2018, pp. 1–5.
[44] Y. Hu, W. Yang, M. Li, and J. Liu, “Progressive spatial recurrent neural network for intra prediction,” arXiv preprint arXiv:1807.02232, 2018.
[45] S. Huo, D. Liu, F. Wu, and H. Li, “Convolutional neural network-based motion compensation refinement for video coding,” in ISCAS, 2018, pp. 1–4.
[46] C. Jia, S. Wang, X. Zhang, S. Wang, J. Liu, S. Pu, and S. Ma, “Content-aware convolutional neural network for in-loop filtering in high efficiency video coding,” IEEE Transactions on Image Processing, DOI: 10.1109/TIP.2019.2896489, 2019.
[47] F. Jiang, W. Tao, S. Liu, J. Ren, X. Guo, and D. Zhao, “An end-to-end compression framework based on convolutional neural networks,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 28, no. 10, pp. 3007–3018, 2018.
[48] J. Jiang, “Image compression with neural networks–A survey,” Signal Processing: Image Communication, vol. 14, no. 9, pp. 737–760, 1999.
[49] Z. Jin, P. An, L. Shen, and C. Yang, “CNN oriented fast QTBT partition algorithm for JVET intra coding,” in VCIP. IEEE, 2017, pp. 1–4.
[50] Z. Jin, P. An, C. Yang, and L. Shen, “Quality enhancement for intra frame coding via CNNs: An adversarial approach,” in ICASSP. IEEE, 2018, pp. 1368–1372.
[51] N. Johnston, D. Vincent, D. Minnen, M. Covell, S. Singh, T. Chinen, S. Jin Hwang, J. Shor, and G. Toderici, “Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks,” in CVPR, 2018, pp. 4385–4393.
[52] N. Kalchbrenner, A. van den Oord, K. Simonyan, I. Danihelka, O. Vinyals, A. Graves, and K. Kavukcuoglu, “Video pixel networks,” in ICML, 2017, pp. 1771–1779.
[53] J. Kang, S. Kim, and K. M. Lee, “Multi-modal/multi-scale convolutional neural network based in-loop filter design for next generation video codec,” in ICIP, 2017, pp. 26–30.
[54] S. Kim, J. S. Park, C. G. Bampis, J. Lee, M. K. Markey, A. G. Dimakis, and A. C. Bovik, “Adversarial video compression guided by soft edge detection,” arXiv preprint arXiv:1811.10673, 2018.
[55] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013.
[56] A. Kolesnikov and C. H. Lampert, “Latent variable PixelCNNs for natural image modeling,” arXiv preprint arXiv:1612.08185, 2016.
[57] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in NIPS, 2012, pp. 1097–1105.
[58] H. Larochelle and I. Murray, “The neural autoregressive distribution estimator,” in Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011, pp. 29–37.
[59] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, May 2015.
[60] J. Lee, S. Cho, and S.-K. Beack, “Context-adaptive entropy model for end-to-end optimized image compression,” arXiv preprint arXiv:1809.10452, 2018.
[61] B. Li, H. Li, L. Li, and J. Zhang, “ domain rate control algorithm for high efficiency video coding,” IEEE Transactions on Image Processing, vol. 23, no. 9, pp. 3841–3854, 2014.
[62] C. Li, L. Song, R. Xie, and W. Zhang, “CNN based post-processing to improve HEVC,” in ICIP. IEEE, 2017, pp. 4577–4580.
[63] J. Li, B. Li, J. Xu, R. Xiong, and W. Gao, “Fully connected network-based intra prediction for image coding,” IEEE Transactions on Image Processing, vol. 27, no. 7, pp. 3236–3247, 2018.
[64] M. Li, S. Gu, D. Zhang, and W. Zuo, “Enlarging context with low cost: Efficient arithmetic coding with trimmed convolution,” arXiv preprint arXiv:1801.04662, 2018.
[65] M. Li, W. Zuo, S. Gu, D. Zhao, and D. Zhang, “Learning convolutional networks for content-weighted image compression,” in CVPR, 2018, pp. 673–681.
[66] Y. Li, B. Li, D. Liu, and Z. Chen, “A convolutional neural network-based approach to rate control in HEVC intra coding,” in VCIP. IEEE, 2017, pp. 1–4.
[67] Y. Li, L. Li, Z. Li, J. Yang, N. Xu, D. Liu, and H. Li, “A hybrid neural network for chroma intra prediction,” in ICIP, 2018, pp. 1797–1801.
[68] Y. Li, D. Liu, H. Li, L. Li, Z. Li, and F. Wu, “Learning a convolutional neural network for image compact-resolution,” IEEE Transactions on Image Processing, vol. 28, no. 3, pp. 1092–1107, 2019.

[69] Y. Li, D. Liu, H. Li, L. Li, F. Wu, H. Zhang, and H. Yang, “Convolutional neural network-based block up-sampling for intra frame coding,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 28, no. 9, pp. 2316–2330, 2018.
[70] B. Lim, S. Son, H. Kim, S. Nah, and K. M. Lee, “Enhanced deep residual networks for single image super-resolution,” in CVPR Workshops, 2017, pp. 136–144.
[71] J. Lin, D. Liu, H. Li, and F. Wu, “Generative adversarial network-based frame extrapolation for video coding,” in VCIP, 2018, pp. 1–4.
[72] J. Lin, D. Liu, H. Yang, H. Li, and F. Wu, “Convolutional neural network-based block up-sampling for HEVC,” IEEE Transactions on Circuits and Systems for Video Technology, DOI: 10.1109/TCSVT.2018.2884203, 2018.
[73] D. Liu, H. Ma, Z. Xiong, and F. Wu, “CNN-based DCT-like transform for image compression,” in MMM. Springer, 2018, pp. 61–72.
[74] D. Liu, D. Wang, and H. Li, “Recognizable or not: Towards image semantic quality assessment for compression,” Sensing and Imaging, vol. 18, no. 1, pp. 1–20, 2017.
[75] D. Liu, H. Zhang, and Z. Xiong, “On the classification-distortion-perception tradeoff,” arXiv preprint arXiv:1904.08816, 2019.
[76] J. Liu, S. Xia, W. Yang, M. Li, and D. Liu, “One-for-all: Grouped variation network based fractional interpolation in video coding,” IEEE Transactions on Image Processing, vol. 28, no. 5, pp. 2140–2151, 2019.
[77] K. Liu, D. Liu, H. Li, and F. Wu, “Convolutional neural network-based residue super-resolution for video coding,” in VCIP, 2018, pp. 1–4.
[78] P. Liu, H. Zhang, K. Zhang, L. Lin, and W. Zuo, “Multi-level wavelet-CNN for image restoration,” in CVPR Workshops, 2018, pp. 773–782.
[79] Z. Liu, X. Yu, Y. Gao, S. Chen, X. Ji, and D. Wang, “CU partition mode decision for HEVC hardwired intra encoder using convolution neural network,” IEEE Transactions on Image Processing, vol. 25, no. 11, pp. 5088–5103, 2016.
[80] G. Lu, W. Ouyang, D. Xu, X. Zhang, C. Cai, and Z. Gao, “DVC: An end-to-end deep video compression framework,” in CVPR, 2019.
[81] S. Luo, Y. Yang, Y. Yin, C. Shen, Y. Zhao, and M. Song, “DeepSIC: Deep semantic image compression,” in International Conference on Neural Information Processing. Springer, 2018, pp. 96–106.
[82] C. Ma, D. Liu, X. Peng, and F. Wu, “Convolutional neural network-based arithmetic coding of DC coefficients for HEVC intra coding,” in ICIP, 2018, pp. 1772–1776.
[83] L. Ma, Y. Tian, and T. Huang, “Residual-based video restoration for HEVC intra coding,” in BigMM. IEEE, 2018, pp. 1–7.
[84] S. Ma, X. Zhang, C. Jia, Z. Zhao, S. Wang, and S. Wang, “Image and video compression with neural networks: A review,” IEEE Transactions on Circuits and Systems for Video Technology, DOI: 10.1109/TCSVT.2019.2910119, 2019.
[85] X. Meng, C. Chen, S. Zhu, and B. Zeng, “A new HEVC in-loop filter based on multi-channel long-short-term dependency residual networks,” in DCC. IEEE, 2018, pp. 187–196.
[86] F. Mentzer, E. Agustsson, M. Tschannen, R. Timofte, and L. V. Gool, “Conditional probability models for deep image compression,” in CVPR, 2018, pp. 4394–4402.
[87] ——, “Practical full resolution learned lossless image compression,” arXiv preprint arXiv:1811.12817, 2018.
[88] D. Minnen, J. Ball´e, and G. Toderici, “Joint autoregressive and hierarchical priors for learned image compression,” in NIPS, 2018, pp. 10 794–10 803.
[89] D. Minnen, G. Toderici, M. Covell, T. Chinen, N. Johnston, J. Shor, S. J. Hwang, D. Vincent, and S. Singh, “Spatially adaptive image compression using a tiled deep network,” in ICIP. IEEE, 2017, pp. 2796–2800.
[90] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in ICML, 2010, pp. 807–814.
[91] A. Norkin, G. Bjontegaard, A. Fuldseth, M. Narroschke, M. Ikeda, K. Andersson, M. Zhou, and G. van der Auwera, “HEVC deblocking filter,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1746–1754, 2012.
[92] A. G. Ororbia, A. Mali, J. Wu, S. O’Connell, D. Miller, and C. L. Giles, “Learned neural iterative decoding for lossy image compression systems,” arXiv preprint arXiv:1803.05863, 2018.
[93] W.-S. Park and M. Kim, “CNN-based in-loop filtering for coding efficiency improvement,” in IEEE Image, Video, and Multidimensional Signal Processing Workshop. IEEE, 2016, pp. 1–5.
[94] J. Pfaff, P. Helle, D. Maniry, S. Kaltenstadler, W. Samek, H. Schwarz, D. Marpe, and T. Wiegand, “Neural network based intra prediction for video coding,” in Applications of Digital Image Processing XLI, vol. 10752. International Society for Optics and Photonics, 2018, p. 1075213.
[95] A. Prakash, N. Moran, S. Garber, A. DiLillo, and J. Storer, “Semantic perceptual image compression using deep convolution networks,” in DCC. IEEE, 2017, pp. 250–259.

[96] S. Puri, S. Lasserre, and P. Le Callet, “CNN-based transform index prediction in multiple transforms framework to assist entropy coding,” in EUSIPCO. IEEE, 2017, pp. 798–802.
[97] O. Rippel and L. Bourdev, “Real-time adaptive image compression,” in ICML, 2017, pp. 2922–2930.
[98] O. Rippel, S. Nair, C. Lew, S. Branson, A. G. Anderson, and L. Bourdev, “Learned video compression,” arXiv preprint arXiv:1811.06981, 2018.
[99] T. Salimans, A. Karpathy, X. Chen, and D. P. Kingma, “PixelCNN++: Improving the PixelCNN with discretized logistic mixture likelihood and other modifications,” arXiv preprint arXiv:1701.05517, 2017.
[100] S. Santurkar, D. Budden, and N. Shavit, “Generative compression,” in PCS. IEEE, 2018, pp. 258–262.
[101] I. Schiopu, Y. Liu, and A. Munteanu, “CNN-based prediction for lossless coding of photographic images,” in PCS. IEEE, 2018, pp. 16–20.
[102] C. E. Shannon, “A mathematical theory of communication,” Bell System Technical Journal, vol. 27, no. 3, pp. 379–423, 1948.
[103] A. Skodras, C. Christopoulos, and T. Ebrahimi, “The JPEG 2000 still image compression standard,” IEEE Signal Processing Magazine, vol. 18, no. 5, pp. 36–58, 2001.
[104] J. Snell, K. Ridgeway, R. Liao, B. D. Roads, M. C. Mozer, and R. S. Zemel, “Learning to generate images with perceptual similarity metrics,” in ICIP. IEEE, 2017, pp. 4277–4281.
[105] N. Song, Z. Liu, X. Ji, and D. Wang, “CNN oriented fast PU mode decision for HEVC hardwired intra encoder,” in GlobalSIP. IEEE, 2017, pp. 239–243.
[106] R. Song, D. Liu, H. Li, and F. Wu, “Neural network-based arithmetic coding of intra prediction modes in HEVC,” in VCIP, 2017, pp. 1–4.
[107] X. Song, J. Yao, L. Zhou, L. Wang, X. Wu, D. Xie, and S. Pu, “A practical convolutional neural network as loop filter for intra frame,” in ICIP. IEEE, 2018, pp. 1133–1137.
[108] G. J. Sullivan, J.-R. Ohm, W.-J. Han, and T. Wiegand, “Overview of the high efficiency video coding (HEVC) standard,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1649–1668, 2012.
[109] L. Theis and M. Bethge, “Generative image modeling using spatial LSTMs,” in NIPS, 2015, pp. 1927–1935.
[110] L. Theis, W. Shi, A. Cunningham, and F. Husz´ar, “Lossy image compression with compressive autoencoders,” arXiv preprint arXiv:1703.00395, 2017.
[111] G. Toderici, S. M. O’Malley, S. J. Hwang, D. Vincent, D. Minnen, S. Baluja, M. Covell, and R. Sukthankar, “Variable rate image compression with recurrent neural networks,” arXiv preprint arXiv:1511.06085, 2015.
[112] G. Toderici, D. Vincent, N. Johnston, S. J. Hwang, D. Minnen, J. Shor, and M. Covell, “Full resolution image compression with recurrent neural networks,” in CVPR, 2017, pp. 5306–5314.
[113] R. Torfason, F. Mentzer, E. Agustsson, M. Tschannen, R. Timofte, and L. V. Gool, “Towards image understanding from deep compression without decoding,” arXiv preprint arXiv:1803.06131, 2018.
[114] Y.-H. Tsai, M.-Y. Liu, D. Sun, M.-H. Yang, and J. Kautz, “Learning binary residual representations for domain-specific video streaming,” in AAAI, 2018, pp. 7363–7370.
[115] P. Tudor, “MPEG-2 video compression,” Electronics & Communication Engineering Journal, vol. 7, no. 6, pp. 257–264, 1995.
[116] B. Uria, I. Murray, and H. Larochelle, “RNADE: The real-valued neural autoregressive density-estimator,” in NIPS, 2013, pp. 2175–2183.
[117] ——, “A deep and tractable density estimator,” in ICML, 2014, pp. 467–475.
[118] A. van den Oord, N. Kalchbrenner, and K. Kavukcuoglu, “Pixel recurrent neural networks,” in ICML, 2016, pp. 1747–1756.
[119] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and K. Kavukcuoglu, “Conditional image generation with PixelCNN decoders,” in NIPS, 2016, pp. 4790–4798.
[120] A. van den Oord and B. Schrauwen, “Factoring variations in natural images with deep Gaussian mixture models,” in NIPS, 2014, pp. 3518–3526.
[121] G. K. Wallace, “The JPEG still picture compression standard,” IEEE Transactions on Consumer Electronics, vol. 38, no. 1, pp. xviii–xxxiv, 1992.
[122] T. Wang, M. Chen, and H. Chao, “A novel deep learning-based method of improving coding efficiency from the decoder-end for HEVC,” in DCC. IEEE, 2017, pp. 410–419.
[123] T. Wang, W. Xiao, M. Chen, and H. Chao, “The multi-scale deep decoder for the standard HEVC bitstreams,” in DCC. IEEE, 2018, pp. 197–206.
[124] Y. Wang, X. Fan, C. Jia, D. Zhao, and W. Gao, “Neural network based inter prediction for HEVC,” in ICME. IEEE, 2018, pp. 1–6.

[125] Z. Wang, D. Liu, S. Chang, Q. Ling, Y. Yang, and T. S. Huang, “D3: Deep dual-domain based fast restoration of JPEG-compressed images,” in CVPR, 2016, pp. 2764–2772.
[126] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: From error visibility to structural similarity,” IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600–612, 2004.
[127] Y. Watkins, O. Iaroshenko, M. Sayeh, and G. Kenyon, “Image compression: Sparse coding vs. bottleneck autoencoders,” in IEEE Southwest Symposium on Image Analysis and Interpretation. IEEE, 2018, pp. 17–20.
[128] T. Wiegand, G. J. Sullivan, G. Bjontegaard, and A. Luthra, “Overview of the H.264/AVC video coding standard,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 13, no. 7, pp. 560–576, 2003.
[129] I. H. Witten, R. M. Neal, and J. G. Cleary, “Arithmetic coding for data compression,” Communications of the ACM, vol. 30, no. 6, pp. 520–541, 1987.
[130] D. H. Wolpert and W. G. Macready, “No free lunch theorems for optimization,” IEEE Transactions on Evolutionary Computation, vol. 1, no. 1, pp. 67–82, 1997.
[131] C.-Y. Wu, N. Singhal, and P. Kr¨ahenb¨uhl, “Video compression through image interpolation,” in ECCV, 2018, pp. 416–431.
[132] F. Wu, D. Liu et al., “Description of SDR video coding technology proposal by University of Science and Technology of China, Peking University, Harbin Institute of Technology, and Wuhan University,” JVET, Tech. Rep. JVET-J0032, 2018.
[133] J. Xu, M. Xu, Y. Wei, Z. Wang, and Z. Guan, “Fast H.264 to HEVC transcoding: A deep learning method,” IEEE Transactions on Multimedia, DOI: 10.1109/TMM.2018.2885921, 2018.
[134] M. Xu, T. Li, Z. Wang, X. Deng, R. Yang, and Z. Guan, “Reducing complexity of HEVC: A deep learning approach,” IEEE Transactions on Image Processing, vol. 27, no. 10, pp. 5044–5059, 2018.
[135] N. Yan, D. Liu, B. Li, H. Li, T. Xu, and F. Wu, “Convolutional neural network-based invertible half-pixel interpolation filter for video coding,” in ICIP, 2018, pp. 201–205.
[136] N. Yan, D. Liu, H. Li, B. Li, L. Li, and F. Wu, “Convolutional neural network-based fractional-pixel motion compensation,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 29, no. 3, pp. 840–853, 2019.
[137] N. Yan, D. Liu, H. Li, and F. Wu, “A convolutional neural network approach for half-pel interpolation in video coding,” in ISCAS. IEEE, 2017, pp. 1–4.
[138] R. Yang, M. Xu, T. Liu, Z. Wang, and Z. Guan, “Enhancing quality for HEVC compressed videos,” IEEE Transactions on Circuits and Systems for Video Technology, DOI: 10.1109/TCSVT.2018.2867568, 2018.
[139] R. Yang, M. Xu, Z. Wang, and T. Li, “Multi-frame quality enhancement for compressed video,” in CVPR, 2018, pp. 6664–6673.
[140] K. Yu, C. Dong, L. Lin, and C. C. Loy, “Crafting a toolchain for image restoration by deep reinforcement learning,” in CVPR, 2018, pp. 2443–2452.
[141] H. Zhang, L. Song, Z. Luo, and X. Yang, “Learning a convolutional neural network for fractional interpolation in HEVC inter coding,” in VCIP. IEEE, 2017, pp. 1–4.
[142] K. Zhang, W. Zuo, Y. Chen, D. Meng, and L. Zhang, “Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising,” IEEE Transactions on Image Processing, vol. 26, no. 7, pp. 3142–3155, 2017.
[143] Q. Zhang, D. Liu, and H. Li, “Deep network-based image coding for simultaneous compression and retrieval,” in ICIP. IEEE, 2017, pp. 405–409.
[144] Y. Zhang, L. Sun, C. Yan, X. Ji, and Q. Dai, “Adaptive residual networks for high-quality image restoration,” IEEE Transactions on Image Processing, vol. 27, no. 7, pp. 3150–3163, 2018.
[145] Y. Zhang, T. Shen, X. Ji, Y. Zhang, R. Xiong, and Q. Dai, “Residual highway convolutional neural networks for in-loop filtering in HEVC,” IEEE Transactions on Image Processing, vol. 27, no. 8, pp. 3827–3841, 2018.
[146] Z. Zhang, Z. Chen, J. Lin, and W. Li, “Learned scalable image compression with bidirectional context disentanglement network,” arXiv preprint arXiv:1812.09443, 2018.
[147] L. Zhao, H. Bai, A. Wang, and Y. Zhao, “Learning a virtual codec based on deep convolutional neural network to compress image,” arXiv preprint arXiv:1712.05969, 2017.
[148] Z. Zhao, S. Wang, S. Wang, X. Zhang, S. Ma, and J. Yang, “Enhanced bi-prediction with convolutional neural network for high efficiency video coding,” IEEE Transactions on Circuits and Systems for Video Technology, DOI: 10.1109/TCSVT.2018.2876399, 2018.
[149] L. Zhou, C. Cai, Y. Gao, S. Su, and J. Wu, “Variational autoencoder for low bit-rate image compression,” in CVPR Workshops, 2018, pp. 2617–2620.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 (2022 IVC 行人再識別綜述)Deep learning-based person re-identification methods: A survey and outlook of recent works Deep learning_CNN_Review：A Survey of the Recent Architectures of Deep Convolutional Neural Networks——2019 Deep learning：二十八(使用BP算法思想求解Sparse coding中矩陣范數導數) 論文筆記之：Continuous Deep Q-Learning with Model-based Acceleration Deep Learning 論文解讀——Session-based Recommendations with Recurrent Neural Networks 論文翻譯：2021_語音增強模型壓縮_Towards model compression for deep learning based speech enhancement Verilog case coding style Machine Learning Algorithms Study Notes(2)--Supervised Learning Deep learning：十六(deep networks) Representation Learning with Contrastive Predictive Coding