本文來自《Image-to-Image Translation with Conditional Adversarial Networks》,是Phillip Isola與朱俊彥等人的作品,時間線為2016年11月。
作者調研了條件對抗網絡,將其作為一種通用的解決image-to-image變換方法。這些網絡不止用來學習從輸入圖像到輸出圖像的映射,同時學習一個loss函數去訓練這個映射。這讓傳統需要各種不同loss函數的問題變成了可以采用統一方法來解決成為可能。作者發現這種方法在基於標簽maps合成圖片,從邊緣圖像重建目標以及着色圖像等方面非常有效。
0 引言
圖像處理,計算機圖形學,計算機視覺中很多問題可以看成是將輸入圖像“轉換”到輸出圖像上。如將RGB圖像轉換到梯度圖像,邊緣圖像,或者語義標簽map等等。而傳統解決image-to-image的問題是將該問題划分成幾個子問題(如[15, 24, 19, 8,10, 52, 32, 38, 17, 57, 61]),其實都是一樣的,即從pixels預測pixels。
本文的目標是提倡一種通用架構來解決這些問題。而基於CNN的方法,還必須告知目標函數是什么,但是卻必須小心的設計,因為假如讓CNN最小化預測值和ground-truth之間的歐式距離,那么回導致得到模糊的預測圖片,因為歐式距離最小化時基於所有可能的輸出上平均值最小,那么就會導致模糊圖片生成。隨之而來的loss函數就強制讓CNN做一些設定的行為,如輸出圖片的銳化等等,而這是一直未完美解決的問題。
而如果讓模型自己去學習所需要的loss函數,我們只需要告知這個圖片是真的還是假的,那么就十分完美了,最近的GAN[12,23,43,51,62]就是干這個事情的。這時候模糊的圖片就會很容易被判別器給否掉了。即讓生成器自己去學習內在的loss函數去自適應對應的數據集。本文作者兩個目的:
- 證明條件GAN可以解決很多這類問題,並生成可以接受的結果;
- 提出一個簡單的框架去得到好的結果,並分析幾個重要的結構選擇。
0.5 前人工作
關於圖像建模的結構化loss
image-to-image變換問題通常被整理成逐像素分類或者回歸問題[27,34,38,57,61]。這些形式化描述將輸出空間視為“非結構化”,即在給定輸入圖像的情況下,每個輸出像素被視為在條件上獨立於所有其他輸出像素。條件GAN是學習一個結構化loss(structured loss),結構化loss會懲罰輸出的聯合設置。大量的文獻都考慮這種loss,如條件隨機場[9],SSIM指標[55],特征匹配[14],非參數化loss[36],卷積偽先驗[56],基於匹配協方差統計的損失[29]。條件GAN不同於學到的loss,理論上,其實懲罰介於輸出和目標之間任何可能的不同結構。
條件GAN
前人早就將條件GAN用在如離散標簽[12,22,40],文本[45],和圖像等等。圖像條件的模型是從一個標准map進行圖像預測[54],未來幀預測[39],產品照片生成[58],從稀疏標注中進行圖片生成[30,47](文獻[46]中式用一個自動回歸方法來解決這個問題)。其他雖然也有將GAN用在image-to-image上,但是只用無約束GAN,並依賴其他項(如L2回歸)來強制輸出是約束於輸入的。這些文獻在如圖像修復[42],未來狀態預測[63],基於用戶操作的圖像編輯[64],風格轉換[37]和超分辨率[35]。每個方法都只適用具體領域。本文方法希望做到普適,同時這就需要比那些方法相對簡單。
不同於之前的幾種生成器和判別器的結構選擇,本文的生成器使用的是U-Net結構[49];判別器使用的是卷積“PatchGAN”分類器,其只懲罰在圖像塊尺度規模上的結構。一個類似的PatchGAN結構在文獻[37]中早就有所提及,其實為了抓取局部類型統計。本文展示該方法可以適用更廣泛的問題,還分析了更改patch size帶來的影響。
1 本文方法
GAN是生成模型,可以學習一個隨機噪音向量\(z\)到輸出圖像\(y\)的映射:\(G:z \rightarrow y\)。而條件GAN是基於觀測的圖片\(x\)和隨機噪音向量\(z\),學習映射到\(y\):\(G:\{x,z\}\rightarrow y\)。該訓練過程如圖2.
1.1 目標函數
一個條件GAN的目標函數可以表示為:
這里G試圖最小化該目標函數,而D試圖最大化該目標函數,即\(G^*=\arg \min_G\max_D\mathcal{L}_cGAN(G,D)\)
為了測試條件(conditioning)判別器的重要性,需要對比一個無條件變化的判別器,即其沒有觀測變量\(x\):
之前的文獻已經證實將GAN的目標函數與一些其他loss(如l2距離)混合起來是有好處的[42]。判別器的工作依然沒變,但是生成器不止需要愚弄判別器,還需要在受到L2約束下接近ground-truth。本文采用L1距離,因為L1能減少輸出的圖片模糊:
最終的目標函數為:
沒有\(z\),該GAN還是學到從\(x\)映射到\(y\)的映射,不過會生成判別性輸出,因此會無法匹配除了delta函數的其他任何分布。之前的條件GAN意識到了這點,所以給生成器在\(x\)之外,提供高斯噪音\(z\)作為輸入。在初始實驗中,作者並未找到該策略的有效性,即讓生成器簡單忽略該噪音,這與Mathieu的論證吻合[39]。在本文最終模型中,作者只在在訓練和測試階段的生成器的幾層的dropout項中采用噪音。盡管存在dropout噪音,作者只在輸出上觀察到微小的隨機性。設計的條件GAN可以提供高隨機性輸出,從而捕獲它們建模的條件分布的完整熵,是當前工作還沒解決的問題。
1.2 網絡結構
作者調整了[43]中的生成器和判別器結構,判別器和生成器同時使用convolution-BatchNorm-ReLU形式的模塊。
1.2.1 帶有skips的生成器
image-to-image轉換問題的一個定義特征是它們將高分辨率輸入網格映射到高分辨率輸出網格。另外,輸入和輸出雖然看起來結果不同,不過底層結構都是差不多的。因此,作者設計生成器的結構也是這個思路。
許多前人的工作[29,42,54,58,63]都是基於編碼器-解碼器網絡。這樣的網絡結構中,輸入經過許多層慢慢下采樣,直到一個bottleneck層,然后再逆轉這個操作。這樣的網絡需要所有的信息經過所有層,包含bottleneck。對於許多圖像轉換問題,在輸入和輸出之間共享大量低級信息是一個很好的想法,並且希望直接在網絡上傳送該信息。例如,圖像着色桑,輸入和輸出是共享突出邊緣的位置的。
為了讓生成器有一種規避bottleneck的方法,增加了skip的連接,形狀如U-Net[49](如圖3)。特別的,在層\(i\)和層\(n-i\)之間增加skip 連接,這里\(n\)是層的總量。每個skip連接簡單的將層\(i\)與層\(n-i\)之間所有的通道進行concatenation。
1.2.2 馬爾可夫判別器(PatchGAN)
眾所周知L2 loss(看圖4,L1也會模糊)會讓圖像生成問題中生成的圖像變得模糊,雖然這些loss不能准確的抓取高頻紋理,可是他們還是能夠抓取低頻輪廓的。對於這種情況,不需要一個全新的框架來強制低頻的正確性,L1就夠了。
那么受其啟發,讓GAN判別器只對高頻結構進行建模,讓L1項去對低頻進行建模,如式子4。為了對高頻進行建模,需要將注意力限制到局部圖像塊上。因此,作者設計出一個判別器結構,這里稱其為PatchGAN,只懲罰圖像塊尺度上的結構。該判別器試圖區分是否圖像中每個\(N\times N\)塊是真的還是假的。將該判別器以卷積方式划過整個圖像,平均所有的響應來提供判別器最終的輸出。
在后面,證明了雖然N可以遠小於圖片的完整size,可是仍然可以生成高質量的結果。這是有利的,因為更小的PatchGAN有着更少的參數,運行更快,可以應用在任意大的圖像。
這樣鑒別器有效地將圖像建模為馬爾可夫隨機場,其是假設像素之間的獨立可分性性超過了塊的直徑。這種聯系在文獻[37]中有所探討,同樣對紋理模型[16,20]和風格[15,21,24,36]也有常見假設。PatchGAN因此可以理解成一種紋理/風格 loss形式。
1.3 優化和推論
為了優化該網絡,遵循標准方法:交替的迭代,先在D上迭代一次,然后在G上迭代一次。如最初始GAN中所述,訓練G時,不最小化\(log(1-D(x,G(x,z)))\),而是最大化\(\log D(x,G(x,z))\)。另外,在優化D時,將目標除以2,這讓D相對G而言減慢了速度。本文使用minibatch SGD和Adam解析器,學習率為0.0002,動量參數分別為\(\beta_1=0.5,\beta_2=0.999\)。
在推論階段,運行生成器,其配置如訓練過程一致。這不同於傳統的,在測試時候也還是用dropout,並且基於測試batch使用BN,而不是用訓練時候的batch。當batchsize設置為1時,BN被稱為“實例標准化”,並且已被證明在圖像生成任務中有效[53]。 在本實驗中,根據實驗使用1到10之間的batchsize。
2 實驗
為了研究條件GAN的泛化性,作者在很多任務和數據集上進行了測試,包含圖形任務,如相片生成;視覺任務,如語義分割:
- 語義 labels$\leftrightarrow $photo, 基於Cityscapes數據集[11];
- 建築 labels$\leftrightarrow $photo,基於CMP Facades[44];
- Map$\leftrightarrow $aerial photo, 從谷歌地圖爬取的數據;
- BW$\rightarrow $color photos,基於[50]訓練;
- Edges$\rightarrow $ photo, 訓練數據來自[64,59];二值邊緣使用HED邊緣檢測器[57]加上后處理完成的;
- Sketch$\rightarrow \(photo,測試 edges\)\rightarrow $photo 人類繪制的模型來自[18];
- Day$\rightarrow $ night,基於[32];
- thermal$\rightarrow $color photos,訓練數據來自[26];
- photo withmissing pixels $\rightarrow $ inpainted photo,基於Paris streetview,來自[13].
每個數據集的詳細訓練過程在附錄材料中。在所有情況中,輸入和輸出都是1-3通道的圖片。結果在圖8,9,10,11,12,13,14,15,16,17,18,19中。
在圖20中,是幾個失敗的案例。
數據要求和速度
即使在小型數據集上也可以獲得不錯的結果。
其中正面訓練集只包含400張圖片(結果在圖13)。
而day to night訓練集之包含91張圖片(結果在圖14)。這種量級的數據集下,訓練自然是很快的;例如圖13中的結果只需要在單張titian x gpu上訓練小於2個小時就夠了,在測試階段,所有的模型之需要少於1s的時間。
2.1 評估指標
評估合成圖片的質量一直是一個未解決的難題[51]。傳統的評估指標如逐像素均值平方誤差不會評估結果的聯合統計信息,所以不會測量這個意在抓取結構化loss的結構。為了更全面地評估結果的視覺質量,作者采用了兩種策略:
- 首先,在亞馬遜標注平台上(Amazon Mechanical Turk,AMT)運行"real vs fake"項目,其中涉及的圖形問題,如着色和照片生成,讓真人來給出結果,這里的map生成,aerial photo 生成和圖像着色都是用這個方法;
- 其次,基於現有的識別系統測量是否生成的cityscapes足夠真實。該指標相似於[51]中的"inception score",[54]中的目標檢測評估,[61,41]中的“semantic interpretability”評估。
AMT perceptual studies
對於AMT實驗,遵循[61]的協議方式:給Turker展現的是一系列圖片,其實包含真實和生成的。每次測試,每張圖片只出現1s,然后圖片會消失,這時候讓Turker在后續時間中給出那一張是假的。略
在着色實驗中,真實和假的圖片都從同樣的灰度輸入上生成;對於Map$\leftrightarrow $aerial photo,真實和假的圖片不是從同樣的輸入上生成的,為了讓任務變得更困難,和避免floor-level現象,是基於256x256分辨率圖片訓練的,但是利用全卷積變換在512x512的分辨率上測試,然后下采樣並以256x256分辨率呈現給Turker。對於着色,是在256x256分辨率上訓練和測試,並以同樣的分辨率呈現給Turker。
FCN-score
近些的工作[51,54,61,41]嘗試使用預訓練的語義分類器去測量。直觀的原理是如果生成的圖像是真實的,基於真實圖片訓練的分類器可以很好的區分合成的圖片。本文采用主流的做語義分割的FCN-8s[38]結構,基於cityscapes數據集訓練。然后通過對合成的圖片進行分類來區分是否是合成的。
2.2 目標函數的分析
那么式子4中哪部分是最重要的?作者通過每次丟失一項來分別研究L1項,GAN項的影響,然后將無條件GAN(式子2)與條件GAN(式子1)上的判別器進行對比。
圖4表示在\(labels \rightarrow photo\)問題上不同變化的影響,L1會生成合理但是很模糊的結果。cGAN(此時式子4中\(\lambda=0\))會生成更銳化的結果,但是在某些應用上會引入視覺造假的情況。將這兩項合起來(\(、lambda=100\))可以減少這種造假現象。
作者在cityscapes \(labels \rightarrow photo\)任務上使用FCN-score方式進行評估質量(如表1)。
如表1,基於GAN的目標可以獲得更高的得分,表明合成的圖片包含更多可識別的結構。同時作者測試了從判別器D上移除條件之后(稱其為GAN)的影響。在這種情況下,loss不會懲罰輸入和輸出之間的誤匹配,而這種結果十分不好;通過檢測該結果發現生成器會坍縮到接近准確輸出的位置,而全不顧輸入是什么情況(即騙過判別器,可是沒視覺意義)。所以可以發現這種情況下,loss實際上是測量輸入和輸出之間的匹配質量,的確cGAN比GAN好太多。然而,增加的L1項表明輸出會更關心輸入,因為L1 loss會懲罰ground-truth與合成輸出之間的距離(其中ground-truth與輸入是項匹配的,而合成輸出並不是,所以通過懲罰合成輸出與ground-truth,等於間接強制合成輸出去匹配輸入部分)。L1+GAN同樣會生成關於輸入label的合成輸出。所以結合所有項,L1+cGAN是最好的。
色彩
條件GAN的一個影響是它還能生成清晰的圖片,超分辨空間結構即使在輸入label map中並不存在。我們可以想象cGAN在空間維度上有類似"銳化"的效果,即讓圖像更具色彩性。就如L1在某個位置不確定是什么邊緣紋理時會賦予模糊一樣,當不確定像素應該采用的幾個合理顏色值中的哪一個時,它也會賦予平均的淺灰色。具體而言,L1會通過選擇基於可能的顏色基礎上條件概率密度函數的中值來達到最小化的目的。另一方不,對抗Loss可以在實際中對那些非真實淺灰色輸出變得敏感,並傾向匹配真實顏色分布。
圖7中,作者調研了是否cGAG可以在Cityscapes數據集上獲得這樣的效果。該圖顯示了在Lab顏色空間中基於輸出顏色上的邊際距離。很明顯L1會生成ground-truth更窄的分布,這也證明了L1的確會傾向生成平均,淺灰色顏色。另一方面,使用cGAN會將輸出分布更推向ground-truth。
2.3 生成器結構的分析
U-Net結構運行low-level的信息能夠快捷(shortcuts)的穿插於網絡中。不過這會讓結果更好么?
圖5和表2對比了在cityscape生成上編碼-解碼器與U-Net的結構效果。其中編碼-解碼器是基於U-Net切斷其中的skip連接實現的。可以發現編碼-解碼器不能生成真實的圖片,而U-Net的優勢不只限於讓cGAN變得更好:不過當U-Net和編碼-解碼器都基於L1 loss訓練時,U-Net獲得更好的效果。
2.4 從pixelGAN到PatchGAN到ImageGAN
作者測試了變化判別器感受野的patch size N帶來的影響,從1x1的PixelGAN到一個完整的286x286的ImageGAN。
圖6顯示了這些差別的結果。
表3基於FCN-score對結果進行了評估。除非特別之處,本文中都基於70x70的PatchGAN進行實驗,並采用L1+cGAN作為loss。
PixelGAN無意於空間清晰度,但是提升了結果的多彩性(如圖7)。例如圖6中,bus在使用L1 loss時是灰色的,而用PixelGAN是紅色的。顏色直方圖匹配是圖像處理中一個常見的問題,PixelGAN是一個輕量級的解決方法。
使用16x16的PatchGAN足以提升結果的銳化程度並獲得好的FCN-scores,但是也會生成造假的現象。70x70 PatchGAN會減輕造假現象,並獲得稍微更好的得分結果。對於286x296的ImageGAN,不會明顯提升結果的視覺質量,的確也會得到相對較低的FCN-scores。這可能是因為ImageGAN有更多參數和更深的通道,所以更難訓練。
全卷積變換
PatchGAN的一個優勢是一個固定size的patch 判別器可以應用到任意大小的圖像上。同樣作者會將該生成器應用在比訓練時候更大的圖像上。作者在\(map \leftrightarrow aerial photo\)任務上。在256x256圖像上訓練好一個生成器,在512x512上進行測試。圖8展示了該方法的效果。
2.5 感知驗證(Perceptual validation)
作者在\(map \leftrightarrow aerial photograph\)和\(grascale \rightarrow color\)任務結果上進行了感性真實性的驗證。基於AMT對\(map \leftrightarrow aerial photograph\)進行評估的結果在表4。
aerial photos中用算法生成的圖片愚弄了18.9%的真人,明顯高於L1的結果;在\(photo \rightarrow map\)方向中,本方法只愚弄了6.1%的真人,這相比L1的方法就並沒高太多。這可能是因為在map中微小的結構化誤差會更明顯,因為map(地圖)有網格幾何,而aerial photographs相比更混亂一些。
作者在ImageNet上訓練了着色,並通過[61,34]引入了測試分割進行測試。本文方法,基於L1+cGAN,愚弄了22.5%的真人(表5).
同時測試了[61]的結果,和基於[61]的方法使用L2 loss的變種。cGAN得分相似於[61]的L2變種(不過在自舉測試上有明顯的不同),但是要比[61]的方法要短,只愚弄了27.8%的貞二年。作者發現他們的方法在着色上有特別的工程實現。
2.6 語義分割
cGAN在那些輸出是高度細節相關或者photographic的問題上有效果,而這在圖像處理和圖形任務中是很普遍的,那么對於視覺任務,如語義分割,其中輸出要比輸入相對簡單。
為了做該任務測試,在cityscape \(photo \rightarrow labels\)上訓練cGAN(分有和沒L1 loss)。圖10就是對應結果,定量分類准確度在表6.
有趣的是,基於沒有L1 loss下訓練的cGAN得到一個相對合理的准確度結果。雖然cGAN獲得不少成功,還遠不到最好解決的程度:如表6中,簡單實用L1回歸可以得到比cGAN更好的結果。作者認為對於視覺任務,目標(預測的輸出接近ground-truth)相比圖形任務沒那么模糊,所以重構loss如L1會更有效。
2.7 社區驅動研究
略
reference:
[1] Bertrand gondouin. https://twitter.com/ bgondouin/status/818571935529377792. Accessed, 2017-04-21. 9
[2] Brannon dorsey. https://twitter.com/ brannondorsey/status/806283494041223168. Accessed, 2017-04-21. 9
[3] Christopher hesse. https://affinelayer.com/ pixsrv/. Accessed: 2017-04-21. 9
[4] Gerda bosman, tom kenter, rolf jagerman, and daan gosman. https://dekennisvannu.nl/site/artikel/ Help-ons-kunstmatige-intelligentie-testen/ 9163. Accessed: 2017-08-31. 9
[5] Jack qiao. http://colormind.io/blog/. Accessed: 2017-04-21. 9
[6] Kaihu chen. http://www.terraai.org/ imageops/index.html. Accessed, 2017-04-21. 9
[7] Mario klingemann. https://twitter.com/ quasimondo/status/826065030944870400. Accessed, 2017-04-21. 9
[8] A. Buades, B. Coll, and J.-M. Morel. A non-local algorithm for image denoising. In CVPR, volume 2, pages 60–65. IEEE, 2005. 1
[9] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015. 2
[10] T. Chen, M.-M. Cheng, P. Tan, A. Shamir, and S.-M. Hu. Sketch2photo: internet image montage. ACM Transactions on Graphics (TOG), 28(5):124, 2009. 1
[11] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR), 2016. 4, 16
[12] E. L. Denton, S. Chintala, R. Fergus, et al. Deep generative image models using a laplacian pyramid of adversarial networks. In NIPS, pages 1486–1494, 2015. 2
[13] C. Doersch, S. Singh, A. Gupta, J. Sivic, and A. Efros. What makes paris look like paris? ACM Transactions on Graphics, 31(4), 2012. 4, 13, 17
[14] A. Dosovitskiy and T. Brox. Generating images with perceptual similarity metrics based on deep networks. arXiv preprint arXiv:1602.02644, 2016. 2
[15] A. A. Efros and W. T. Freeman. Image quilting for texture synthesis and transfer. In SIGGRAPH, pages 341–346. ACM, 2001. 1, 4
[16] A. A. Efros and T. K. Leung. Texture synthesis by nonparametric sampling. In ICCV, volume 2, pages 1033–1038. IEEE, 1999. 4
[17] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE International Conference on Computer Vision, pages 2650–2658, 2015. 1
[18] M. Eitz, J. Hays, and M. Alexa. How do humans sketch objects? SIGGRAPH, 31(4):44–1, 2012. 4, 12
[19] R. Fergus, B. Singh, A. Hertzmann, S. T. Roweis, and W. T. Freeman. Removing camera shake from a single photograph. ACM Transactions on Graphics (TOG), 25(3):787– 794, 2006. 1
[20] L. A. Gatys, A. S. Ecker, and M. Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv preprint arXiv:1505.07376, 12, 2015. 4
[21] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016. 4
[22] J. Gauthier. Conditional generative adversarial nets for convolutional face generation. Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester, 2014(5):2, 2014. 2
[23] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, 2014. 2, 4, 6, 7
[24] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. In SIGGRAPH, pages 327–340. ACM, 2001. 1, 4
[25] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, 2006. 3
[26] S. Hwang, J. Park, N. Kim, Y. Choi, and I. So Kweon. Multispectral pedestrian detection: Benchmark dataset and baseline. In CVPR, pages 1037–1045, 2015. 4, 13, 16
[27] S. Iizuka, E. Simo-Serra, and H. Ishikawa. Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification. ACM Transactions on Graphics (TOG), 35(4), 2016. 2
[28] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. 2015. 3, 4
[29] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. 2016. 2, 3
[30] L. Karacan, Z. Akata, A. Erdem, and E. Erdem. Learning to generate images of outdoor scenes from attributes and semantic layouts. arXiv preprint arXiv:1612.00215, 2016. 2
[31] D. Kingma and J. Ba. Adam: A method for stochastic optimization. ICLR, 2015. 4
[32] P.-Y. Laffont, Z. Ren, X. Tao, C. Qian, and J. Hays. Transient attributes for high-level understanding and editing of outdoor scenes. ACM Transactions on Graphics (TOG), 33(4):149, 2014. 1, 4, 16
[33] A. B. L. Larsen, S. K. Sønderby, and O. Winther. Autoencoding beyond pixels using a learned similarity metric. arXiv preprint arXiv:1512.09300, 2015. 3
[34] G. Larsson, M. Maire, and G. Shakhnarovich. Learning representations for automatic colorization. ECCV, 2016. 2, 8, 16
[35] C. Ledig, L. Theis, F. Husz´ar, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al. Photo-realistic single image super-resolution using a generative adversarial network. arXiv preprint arXiv:1609.04802, 2016. 2
[36] C. Li and M. Wand. Combining markov random fields and convolutional neural networks for image synthesis. CVPR, 2016. 2, 4
[37] C. Li and M. Wand. Precomputed real-time texture synthesis with markovian generative adversarial networks. ECCV, 2016. 2, 4
[38] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, pages 3431– 3440, 2015. 1, 2, 5
[39] M. Mathieu, C. Couprie, and Y. LeCun. Deep multi-scale video prediction beyond mean square error. ICLR, 2016. 2, 3
[40] M. Mirza and S. Osindero. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014. 2
[41] A. Owens, P. Isola, J. McDermott, A. Torralba, E. H. Adelson, and W. T. Freeman. Visually indicated sounds. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2405–2413, 2016. 5
[42] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros. Context encoders: Feature learning by inpainting. CVPR, 2016. 2, 3, 13, 17
[43] A. Radford, L. Metz, and S. Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015. 2, 3, 16
[44] R. ˇ S. Radim Tyleˇcek. Spatial pattern templates for recognition of objects with regular structure. In Proc. GCPR, Saarbrucken, Germany, 2013. 4, 16
[45] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. arXiv preprint arXiv:1605.05396, 2016. 2
[46] S. Reed, A. van den Oord, N. Kalchbrenner, V. Bapst, M. Botvinick, and N. de Freitas. Generating interpretable images with controllable structure. Technical report, Technical report, 2016. 2, 2016. 2
[47] S. E. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In Advances In Neural Information Processing Systems, pages 217–225, 2016. 2
[48] E. Reinhard, M. Ashikhmin, B. Gooch, and P. Shirley. Color transfer between images. IEEE Computer Graphics and Applications, 21:34–41, 2001. 7
[49] O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, pages 234–241. Springer, 2015. 2, 3
[50] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV, 115(3):211–252, 2015. 4, 8, 16
[51] T. Salimans, I. Goodfellow,W. Zaremba, V. Cheung, A. Radford, and X. Chen. Improved techniques for training gans. arXiv preprint arXiv:1606.03498, 2016. 2, 4, 5
[52] Y. Shih, S. Paris, F. Durand, andW. T. Freeman. Data-driven hallucination of different times of day from a single outdoor photo. ACM Transactions on Graphics (TOG), 32(6):200, 2013. 1
[53] D. Ulyanov, A. Vedaldi, and V. Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016. 4
[54] X. Wang and A. Gupta. Generative image modeling using style and structure adversarial networks. ECCV, 2016. 2, 3, 5
[55] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4):600–612, 2004. 2
[56] S. Xie, X. Huang, and Z. Tu. Top-down learning for structured labeling with convolutional pseudoprior. 2015. 2
[57] S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, 2015. 1, 2, 4
[58] D. Yoo, N. Kim, S. Park, A. S. Paek, and I. S. Kweon. Pixellevel domain transfer. ECCV, 2016. 2, 3
[59] A. Yu and K. Grauman. Fine-Grained Visual Comparisons with Local Learning. In CVPR, 2014. 4
[60] A. Yu and K. Grauman. Fine-grained visual comparisons with local learning. In CVPR, pages 192–199, 2014. 16
[61] R. Zhang, P. Isola, and A. A. Efros. Colorful image colorization. ECCV, 2016. 1, 2, 5, 7, 8, 16
[62] J. Zhao, M. Mathieu, and Y. LeCun. Energy-based generative adversarial network. arXiv preprint arXiv:1609.03126, 2016. 2
[63] Y. Zhou and T. L. Berg. Learning temporal transformations from time-lapse videos. In ECCV, 2016. 2, 3, 8
[64] J.-Y. Zhu, P. Kr¨ahenb¨uhl, E. Shechtman, and A. A. Efros. Generative visual manipulation on the natural image manifold. In ECCV, 2016. 2, 4, 16