Unsupervised Image-to-Image Translation Networks


Abstract

  無監督圖像到圖像的翻譯目的是學習不同域圖像的一個聯合分布,通過使用來自單獨域圖像的邊緣分布。給定一個邊緣分布,可以得到很多種聯合分布。如果不加入額外的假設條件的話,從邊緣分布無法推出聯合分布。為了解決這個問題,作者提出了一個shared-latent空間假設並且基於Coupled GANs提出一個無監督的圖像到圖像的翻譯框架

Introduction:

  計算機視覺中的許多問題可以被當作是圖像到圖像的翻譯問題,匹配一個域中的圖像對應到到另一個域中。如超分辨率可以被當作匹配一張低分辨率圖像到對應的高分辨率圖像。圖像着色可以看作匹配一張灰度圖到一張對應的彩色圖像。這些問題有監督方式和無監督方式來解決。在有監督情況下,有可用的不同域的成對的圖像。在無監督情況下,我們只有兩個單獨的數據集,其中一個數據集包含一個域的圖像,另一個數據集包含了另一個域的圖像。沒有配對的樣本來指導一張圖像如何轉換到另一個域中的圖像。由於缺乏配對的圖像,無監督的圖像到圖像的翻譯問題被認為是很難的,但是它是實用的,因為使得數據的收集變得簡單。

  本文從概率建模的角度來分析圖像翻譯問題,關鍵的挑戰在於學習不同域圖像的聯合分布。在無監督設置下,兩個數據集包含了來自不同的兩個域的兩個邊緣分布的圖像,目標是使用這些圖像來推斷聯合分布。耦合理論說明了通常給定一個邊緣分布我們可以得到很多聯合分布。因此,從邊緣分布推斷聯合分布是一個高度欠定的問題。為了解決這個問題,我們需要在聯合分布的基礎上加入額外的假設。

  為此,作者做了一個shared-latent空間假設,假設一對來自不同域的對應的圖像可以被映射為共享潛在空間的同一個表示。基於這個假設,作者提出了UNIT框架,是基於生成對抗網絡和可變分自編碼。使用VAE-GAN來建模每個圖像域。對抗訓練目標整合了一個權重共享約束,形成了一個共享的潛在空間,來生成兩個域對應的圖像,同時可變分自編碼器將不同域的輸入圖像和轉換圖像聯系起來。該shared-latent空間假設被用在Coupled GAN中為了聯合分布學習,作者延伸了Coupled GAN的工作。並且在本文的工作中,shared-latent space約束暗含了循環一致性約束。

 

假設:

X1X2表示兩個圖像域。在有監督圖像轉換條件下,我們可以得到樣本(x1, x2)來自一個聯合分布PX1,X2(x1, x2)。在無監督中,我們只有來自邊緣分布PX1(x1)PX2(x2)的樣本。由於很多種可能的聯合分布可以產生給定的邊緣分布,如果沒有額外的假設無法從邊緣分布推斷出聯合分布。

如圖1所示,假設任意給定的樣本對x1, x2,存在一個共享的潛在編碼在一個共享潛在空間,以至於我們可以從這個編碼恢復出兩個圖像,並且我們從兩張圖像中的一個計算出該編碼。也就是說,我們假設存在函數E1,E2,G1,G2,給定一對來自聯合分布的圖像(x1, x2),可以得到以及相反地在這個模型中,函數匹配X1域到X2域,可以用復合函數表示為同樣,UNIT學習

。注意到這倆存在的一個必要條件是循環一致性約束:。我們可以重建輸入圖像將轉換后的輸入圖像再轉回去。換句話說,提出的共享潛在空間假設包含了循環一致性假設。

為了實現這個shared-latent space假設,進一步假設一個共享的中間表示h,因此生成一堆對應圖像的過程允許這樣一個形式

 

因此,可以得到,其中是一個普通的高層生成函數,匹配zh是低層生成函數,匹配hx1,x2

框架結構

如圖1所示,本文的框架是基於變分自編碼器和生成對抗網絡。共由6個子網絡組成:兩個域圖像編碼器E1E2,兩個域圖像生成器G1G2,以及兩個域圖像判別器D1D2。該框架在一次訓練中學習兩個方向的轉換。

VAE. 編碼-生成器對{E1,G1}由一個X1域的變分自編碼器組成(VAE1)。對於一張輸入圖像VAE1首先通過VAE1映射x1到潛在空間Z的一個編碼,然后解碼該編碼的一個隨機擾動的版本來通過生成器G1重構輸入圖像。假設潛在空間Z中的部分是條件獨立的,並且是方差為1的高斯分布。編碼器輸出一個均值向量潛在編碼z1的分布為其中I為單位矩陣。重構的圖像是的分布被當作的一個隨機向量,並且從中采樣得到。E2G2同理。

  利用重新參數化技巧,不可導的采樣操作可以重新參數化作為一個可導的操作通過使用輔助的隨機變量。重新參數化技巧可以使我們利用反向傳播來訓練VAEs。η表示多方差高斯分布的隨機向量:

采樣操作可以通過來實現。

權值共享.基於共享潛在空間假設,我們施加一個權值共享約束來關聯兩個VAEs。特別地,我們共享E1E2最后幾層的權重,是為了提出兩個輸入圖像域的高層表示。同樣地,G1G2的前面幾層共享權重,用來解碼高層的表示為了重構輸入圖像。

注意到單獨的權值共享約束不能確保對應的兩個域的圖像有同樣的潛在編碼。在無監督環境下,沒有成對的兩個域的圖像存在來訓練網絡從而輸出相同的潛在編碼。提取到的一對圖像的潛在編碼通常是不同的。即使它們是一樣的,同樣的潛在信息可能有不同域的不同的語義信息。因此,同樣的潛在編碼仍然能夠解碼輸出兩個無關的圖像。但是,我們將通過對抗訓練來給出,兩個域中的成對圖像可以通過E1E2映射到一個通用的潛在編碼,並且該潛在編碼可以被映射成一對對應的圖像在兩個域中通過G1G2

這個共享的潛在空間假設使得我們可以進行圖像到圖像的轉換。通過應用可以把X1域中的圖像x1轉換到X2域中的圖像x2。這兩條分支和圖像重構的分支聯合訓練。

GANs. 本文的網絡框架由兩個生成對抗網絡組成:GAN1中,對於從第一個域中采集到的真實圖像,D1應該輸出真,對於由G1生成的圖像,輸出為假。G1可以生成兩種類型的圖像,來自重構分支的圖像,以及來自轉換分支的圖像因為重建分支可以有監督的訓練,我們只用對抗訓練到轉換分支的圖像

Cycle-consistency (CC). 因為shared-latent space假設暗含了循環一致性約束,我們也可以施加循環一致性約束在提出的網絡框架中來進一步正則化這個欠定的無監督圖像轉換問題。

Learning. 我們聯合解決這個學習問題對於圖像重建分支,圖像轉換分支以及循環重構分支。

 

VAE訓練旨在最小化一個可變上邊界,VAE的目標是

 

其中超參數控制了目標項的權重,KL散度項懲罰潛在編碼分布與先驗分布的偏差。正則化使得一個簡單的方式從潛在空間中采樣。我們利用拉普拉斯分布來建模因此,最小化負對數似然項等價於最小化圖像與重構圖像之間的絕對距離。其中,先驗分布是一個0均值的高斯分布。GAN的目標函數是

 

該目標函數是條件GAN目標函數。被用來確保生成的圖像看起來像目標域的圖像,超參數控制了GAN目標函數的影響。

只用一個VAE-like的目標函數來建模循環一致性約束,

 

其中負對數似然目標函數確保了一個兩次轉換圖像看起來像輸入的圖像,KL項懲罰潛在的編碼由背離循環重建分支的先驗分布。超參數控制了兩個不同目標項的權重。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM