2017-ICLR End-To-End Optimized Image Compression論文筆記


摘要

我們描述了一種圖像壓縮方法,包括非線性分析變換,均勻量化器和非線性合成變換。變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。與大多數卷積神經網絡不同,選擇聯合非線性來實現局部增益控制的形式,其靈感來自用於模擬生物神經元的那些。使用隨機梯度下降的變體,我們在訓練圖像數據庫上聯合優化整個模型的率失真性能,引入由量化器產生的不連續損失函數的連續代理。在某些條件下,松弛損失函數可以被解釋為生成模型的對數似然性,如變分自動編碼器所實現的。然而,與這些模型不同,壓縮模型必須在速率 - 失真曲線的任何給定點處操作,如權衡參數所指定的那樣。在一組獨立的測試圖像中,我們發現優化的方法通常表現出比標准JPEG和JPEG 2000壓縮方法更好的速率 - 失真性能。更重要的是,我們觀察到所有圖像在所有比特率下的視覺質量都有顯着提高,這得到了使用MS-SSIM的客觀質量估算的支持。

簡介

數據壓縮是工程中一個基礎且經過深入研究的問題,通常用於為具有最小熵的給定離散數據集合設計代碼的目的而制定(Shannon,1948)。 該解決方案在很大程度上依賴於數據概率結構的知識,因此該問題與概率源建模密切相關。 然而,由於所有實際代碼必須具有有限熵,因此必須將連續值數據(例如圖像像素強度的矢量)量化為有限的離散值集,這會引入誤差。 在這種情況下,稱為有損壓縮問題,必須權衡兩個競爭成本:離散化表示的熵(速率)和量化(失真)引起的誤差。 不同的壓縮應用,例如數據存儲或有限容量信道上的傳輸,需要不同的速率 - 失真權衡。

速率和失真的聯合優化是困難的。 沒有進一步的限制,高維空間中的最佳量化的一般問題是難以處理的(Gersho和Gray,1992)。 出於這個原因,大多數現有的圖像壓縮方法通過將數據矢量線性變換為合適的連續值表示,獨立地量化其元素,然后使用無損熵代碼對所得到的離散表示進行編碼來進行操作(Wintz,1972; Netravali和Limb,1980年由於轉換的核心作用,該方案稱為變換編碼。 例如,JPEG對像素塊使用離散余弦變換,JPEG 2000使用多尺度正交小波分解。 通常,變換編碼方法的三個分量 - 變換,量化器和熵編碼 - 被單獨優化(通常通過手動參數調整)。

我們開發了一種基於非線性變換的圖像壓縮模型端到端優化框架(圖1)。在此之前,我們證明了一個由線性 - 非線性塊變換組成的模型,針對感知失真度量進行了優化,與針對均方誤差(MSE)優化的模型相比,在視覺上表現出優越性(Ball'e,Laparra和Simoncelli,2016 )。在這里,我們針對MSE進行了優化,但使用了由線性卷積和非線性級聯構建的更靈活的變換。具體而言,我們使用廣義分裂歸一化(GDN)聯合非線性,其受到生物視覺系統中神經元模型的啟發,並且已經證明在高斯化圖像密度方面是有效的(Ball'e,Laparra和Simoncelli,2015)。該級聯變換之后是均勻標量量化(即,每個元素被舍入到最接近的整數),這有效地實現了原始圖像空間上的矢量量化的參數形式。使用近似參數非線性逆變換從這些量化值重建壓縮圖像。

對於沿速率 - 失真曲線的任何期望點,使用隨機梯度下降來聯合優化分析和合成變換的參數。為了在存在量化(幾乎在任何地方產生零梯度)的情況下實現這一點,我們使用基於概率模型的連續弛豫的代理損失函數,用加性均勻噪聲代替量化步長。寬松的率失真優化問題與用於擬合生成圖像模型的問題有些相似,特別是變分自動編碼器(Kingma和Welling,2014; Rezende,Mohamed和Wierstra,2014),但我們施加的限制因素不同它在整個速率 - 失真曲線上近似於離散問題。最后,我們不是報告差分或離散熵估計,而是使用實際比特率實現熵代碼並報告性能,從而證明了我們的解決方案作為完全有損壓縮方法的可行性。

選擇前進,反轉和感知轉換

大多數壓縮方法基於正交線性變換,選擇該正交線性變換以減少數據中的相關性,從而簡化熵編碼。 但線性濾波器響應的聯合統計表現出強烈的高階依賴性。 通過使用聯合局部非線性增益控制操作(Schwartz和Simoncelli,2001; Lyu,2010; Sinz和Bethge,2013),這些可以通過視覺神經元模型的啟發而顯著降低(Heeger,1992; Carandini和Heeger,2012)這種模型的級聯版本已被用於捕獲視覺轉換的多個階段(Simoncelli和Heeger,1998; Mante,Bonin和Carandini,2008)。 一些早期的結果表明,在線性塊變換編碼方法中結合局部歸一化可以提高編碼性能(Malo等,2006),並且可以提高級聯卷積神經網絡的對象識別性能(Jarrett等,2009)。 但是,這些情況下的歸一化參數未針對該任務進行優化。 在這里,我們利用具有優化參數的廣義分裂歸一化(GDN)變換,我們先前已經證明在高斯化自然圖像的局部聯合統計中非常有效,遠遠超過線性變換的級聯,然后是逐點非線性( Ball'e,Laparra和Simoncelli,2015)。

請注意,深度卷積網絡的一些訓練算法包含“批量歸一化”,重新調整網絡中線性濾波器的響應,以使其保持在合理的操作范圍內(Ioffe和Szegedy,2015)。 這種類型的歸一化與局部增益控制的不同之處在於,重定標因子在所有空間位置上是相同的。 此外,一旦訓練完成,縮放參數通常是固定的,這將歸一化轉換為關於數據的仿射變換 - 與GDN不同,GDN是空間自適應的並且可以是高度非線性的。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM