用GAN進行圖像壓縮 by ch


論文連接:https://arxiv.org/abs/1804.02958v1

一.簡介

       利用生成對抗網絡進行圖像壓縮,其實就相當於用一個生成器代替了原來的decoder。decoder將編碼后的圖片恢復成原始圖片,靠的是encoder生成的編碼,所以生成圖像的質量和碼字的長度直接相關,這也就限制了編碼率的進一步減小。本文的作者提出利用生成對抗網絡作為decoder就是為了解決這個問題。編碼過程中,不再對整個圖像進行編碼,而是只對其中的某一部分進行編碼,然后恢復原始圖像時,編碼部分通過解碼進行恢復,沒有編碼的部分則通過生成器G自動生成,這樣就只需要對一部分圖片進行編碼,可以極大地提高壓縮率。

二.網絡結構

1.Global generative compression

       具體的網絡結構包括兩種,第一種叫做Global generative compression(GC),這種方式適用於對整幅圖像進行保存。其中哪一部分需要保存,哪一部分需要生成則由網絡自己根據語義圖以及優化目標自動選擇。

        這里的目標函數包含了三部分,前兩個式子是GAN的目標函數,第三個式子是控制生成圖片相對於原始圖片的失真,最后一個式子是控制壓縮率,可以通過調整β的大小來調整壓縮率。

 

 

2.Selective generative compression

       第二種結構叫做Selective generative compression(SC),這種結構一般用於某些特定場景下,比如在視頻通話中,人們往往更注重的是視頻中的人,而對於背景並不在意。所以只對人像部分進行編碼,而背景部分則由生成器自動生成。對於哪一部分編碼,哪一部分生成,則是通過一個二進制的圖控制,需要生成的部分數值為0,需要保存的部分數值為1。

 

 

        訓練方式有兩種,一種是隨機選取每個訓練圖片中的25%進行保存,其余部分生成;另一種是設置一個固定尺寸的窗口,窗口內部保存,窗口外的部分生成。使用SC時的目標函數和GC大致相同,只不過在訓練過程中,目標函數的第三部分,只對需要保存的區域進行計算,因為已經假定這一部分不重要。

 

 

 

 

三.評價標准

        在當壓縮率特別小的時候,用PSNR和SSIM來衡量圖片質量已經沒有意義。因為以PSNR為例,它更關心的是局部信息丟失了多少,而在壓縮率趨近0的情況下,圖像失真已經非常大,人們更關心的是圖像的整體變化,而不再是局部的信息丟失,因此此時用PSNR來衡量圖像質量意義不大。於是作者用mIoU來估計圖片的質量,作者比較的是對壓縮后的圖像和原始圖像進行語義分割后得到的圖像的差異。

 

 

        此外,作者還通過用戶調查的方式來驗證通過這種方式得到的壓縮圖像具有更好的視覺效果。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM