SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis - 1 - 論文學習

本文轉載自查看原文 2019-11-28 18:37 387 深度學習

https://github.com/wchen342/SketchyGAN

Abstract

從人體草圖中合成逼真的圖像是計算機圖形學和視覺學中的一個具有挑戰性的課題。現有的方法要么需要精確的邊緣圖，要么依賴於檢索現有的照片。在這項工作中，我們提出了一種新穎的生成對抗網絡(GAN)方法，它綜合了包括摩托車、馬和沙發在內的50個類別的可信圖像。我們展示了一種完全自動化的草圖數據擴充技術，並說明擴充的數據對我們的任務是有幫助的。提出了一種既適用於生成器又適用於判別器的新型網絡結構塊，通過注入多尺度的輸入圖像來改善信息流動。與最先進的圖像轉換方法相比，我們的方法生成更真實的圖像，並獲得更高的Inception分數

1. Introduction

我們怎樣才能快速地想象出一個場景或物體?最簡單的方法之一是畫一個草圖。與攝影相比，草圖不需要任何捕捉設備，也不局限於對現實的忠實采樣。然而，草圖往往是簡單和不完美的，因此從新手草圖中合成逼真的圖像是具有挑戰性的。基於草圖的圖像合成可以使非技術人員在沒有顯著的藝術技能或圖像合成領域的專業知識的情況下創建現實的圖像。這通常是困難的，因為草圖是稀疏的，而且新手的人類藝術家不能畫出精確反映物體邊界的草圖。由草圖合成的真實圖像應該盡可能地尊重藝術家的意圖，但為了保留在自然的圖像流形上，可能需要偏離粗糙的筆畫。在過去的30年里，最流行的基於草圖的圖像合成技術是由圖像檢索方法驅動的，如Photosketcher[13]和Sketch2photo[5]。這種方法通常需要精心設計的特征表示，這些特征表示在草圖和照片之間是不變的。它們還涉及復雜的后處理過程，如圖形切割合成和梯度域混合，以使合成的圖像逼真。
最近出現的深度卷積神經網絡[33,32,18]為圖像合成提供了誘人的方法，其中生成對抗網絡(GANs)[14]顯示了巨大的潛力。GAN將它的訓練定義為生成器和判別器之間的零和游戲。判別器的目標是判斷給定的圖像是真實的還是假的，而生成器試圖生成真實的圖像，這樣判別器就會將它們誤分類為真實的。基於草圖的圖像合成可以表述為基於輸入草圖的圖像轉換問題。有幾種方法使用GANs將圖像從一個域轉換到另一個域[25,62]。然而，沒有一個是專門為從草圖合成圖像而設計的。
在本文中，我們提出了一種基於gan的、端到端可訓練的圖形合成方法SketchyGAN，它可以從50個類生成對象。輸入是一個草圖說明一個對象，輸出是一個現實的圖像，包含有着相似姿勢的對象。這是一個挑戰，因為:

(i)配對的照片和草圖很難獲得，所以沒有龐大的數據庫可供學習。
(ii)目前還沒有建立針對不同類別的草圖到圖像合成的神經網絡方法。以往的工作訓練模型為單一或少數類別[28,50]。

我們解決了第一個挑戰，通過擴展Sketchy數據庫[49]，它包含了近75000個實際的人體草圖和照片對，以及一個更大的邊緣圖和照片配對數據集。這個增強數據集是從50個類別的2299,144張Flickr圖片中收集來的，並從中生成他們的邊緣圖。在訓練過程中，我們調整了邊緣映射圖像和草圖圖像對之間的比例，使得網絡可以逐步地將其知識從邊緣圖像合成轉移到草圖圖像合成。

對於第二個挑戰，我們建立了一個基於gan的模型，以輸入草圖為條件，加入幾個額外的損失項來提高合成質量。我們還引入了一種新的構建塊，稱為掩碼殘差單元(MRU)，它有助於生成更高質量的圖像。該塊接受一個額外的圖像輸入，並利用其內部掩碼來動態地決定網絡的信息流。通過連接這些塊，我們可以輸入一個不同的規模的圖像金字塔。我們證明了這種結構在圖像合成任務上比單純的卷積方法和ResNet塊有更好的性能。我們的主要貢獻如下:

提出了Sketchy，一種草圖到圖像生成的深度學習方法。與以前的非參數方法不同，我們在測試時不進行圖像檢索。與以前的深度圖像轉換方法不同，我們的網絡不學習直接復制輸入的邊緣圖(即進行有效地着色，而不是將草圖轉換成照片)。我們的方法能夠從50個不同的類別中生成可信的對象。基於草圖的圖像合成是非常具有挑戰性的，我們的結果通常不具有真實感，但我們證明了與現有的深度生成模型相比，質量有所提高。
我們演示了一種用於草圖數據的數據擴充技術，解決了缺乏足夠的人工標注的訓練數據的問題。
我們制定了一個具有額外目標函數和新的網絡構建塊的GAN模型。我們表明，所有這些都是有利於我們的任務的，缺乏其中任何一個將降低我們結果的質量。

2. Related Work

基於草圖的圖像檢索和合成。基於草圖的圖像檢索已有大量的研究工作[11,12,21,2,3,55,23,22,26,54,38,56,34]。大多數方法使用單詞表示和邊緣檢測來構建跨兩個域的(理想情況下)不變的特性。常見的缺點包括無法執行細粒度的檢索，以及無法從糟糕的草圖邊緣圖映射到照片邊界。為了解決這些問題，Yu等人[60]和Sangkloy等人[49]訓練深度卷積神經網絡(deep convolutional neural network, CNNs)將草圖和照片聯系起來，將基於草圖的圖像檢索作為學習后的特征嵌入空間的搜索。它們表明，使用CNNs極大地提高了性能，並且能夠進行細粒度和實例級檢索。除了檢索的任務，Sketch2Photo[5]和PhotoSketcher[13]通過組合從給定的草圖檢索到的對象和背景來合成真實的圖像。PoseShop[6]通過允許用戶在查詢中輸入額外的2D框架來合成人物圖像，從而使檢索更加精確。

基於Sketch的數據集。人類繪制的草圖的數據集很少，而且由於收集圖紙的工作需要，這些數據集通常很小。最常用的草圖數據集之一是TU-Berlin數據集[10]，它包含了跨越250個類別的20,000個人體草圖。Yu等人的[60]提出了一個帶有配對的草圖和圖像的新的數據集，但只有兩類-鞋和椅子。CUHK香港中文大學的Face Sketches[57]亦包括606張由藝術家所畫的臉部速寫。最新發布的QuickDraw數據集[16]擁有令人印象深刻的5000萬張草圖。然而，由於10秒鍾的時間限制，這些草圖非常粗糙。草圖缺乏細節，往往只包含標志性的或規范的視圖。相比之下，Sketchy數據庫[49]有更多更詳細的圖片，姿勢也更多樣。它涵蓋了125個類別，總共有75,471張草圖，涉及12,500件物品。關鍵的是，它是唯一的配對草圖和照片跨越不同類別的實質性數據集，所以我們選擇使用這個數據集。

使用GANs進行圖像到圖像的轉換。生成對抗網絡(GANs)在生成自然的、真實的圖像方面顯示了巨大的潛力[15,43]。GANs相對於使用直接優化每個像素的重建誤差的方法——這常常導致結果模糊和保守，它使用一個判別器來區分不真實的圖像和真實的圖像，從而迫使生成器產生更清晰的圖像。isa等人[25]的“pix2pix”工作演示了一種使用條件GANs將一個圖像轉換成另一個圖像的簡單方法。條件設置也適用於其他圖像轉換任務，包括草圖着色[50]，風格轉換[59]和域適應[1]任務。與使用條件GANs和成對數據相比，Liu等人在[39]中引入了一個由CoupledGAN[40]和一對變分自編碼器[30]組成的無監督圖像轉換框架。最近，CycleGAN[62]通過加強周期一致性損失，在無監督圖像轉換方面顯示了有希望的結果。

3. Sketchy Database Augmentation

在這一節中，我們將討論如何使用Flickr圖像來擴充Sketchy數據庫[49]，並合成我們希望的近似人類草圖的邊緣圖。數據集是公開的。第3.2節描述了圖像采集、圖像內容過濾和類別選擇。第3.3節描述了我們的邊緣圖的合成。第3.4節描述了我們使用增強數據集的方式。

3.1. Edges vs Sketches

圖2顯示了圖像邊緣圖edges和草圖sketches之間的區別：

草圖是一組模擬物體的近似邊界和內部輪廓的人類繪制的筆畫，而邊緣圖是由機器生成的像素陣列，精確地對應於照片的強度邊界。從草圖生成照片比從邊緣生成要難得多。

與邊緣圖不同的是，草圖並不精確地與物體邊界對齊，因此生成模型需要學習空間轉換來糾正變形的筆畫。

其次，邊緣圖通常包含更多關於背景和細節的信息，而草圖則沒有，因此生成模型必須插入更多的信息。

最后，草圖可能包含漫畫或標志性特征，如圖2c中貓臉上的“老虎”條紋，模型必須學會處理。

盡管有這些巨大的差異，對於有限的Sketchy數據庫來說，邊緣圖仍然是一個有價值的補充。

3.2. Data Collection

學習邊緣或草圖到照片的映射需要大量的訓練數據。對於每個類別我們都想要成千上萬的圖像。ImageNet每個類只有大約1000個圖像，而COCO中的照片往往很雜亂，因此他們作為對象草圖的范例都並不理想。理想情況下，我們希望照片有一個主要對象，就像Sketchy數據庫照片一樣。因此，我們通過將類別名稱作為關鍵字查詢來使用Flickr API直接從Flickr收集圖像，每個類別都收集了100,000張圖片，並按“相關性”進行排序。使用了兩個不同的模型用於過濾不相關的圖像。我們使用Inception-ResNet-v2網絡[52]來過濾來自38 ImageNet[47]類別的與Sketchy重疊的圖像，使用Single Shot MultiBox Detector[41]來檢測在18 COCO[37]類別中包含着一個對象的圖像是否與Sketchy重疊。對於SSD，被檢測對象的邊界框必須覆蓋圖像區域的5%以上，否則圖像將被丟棄。過濾之后，我們得到了一個數據集，平均每個ImageNet類別有46,265張圖片，每個COCO類別有61,365張圖片。在本文的其余部分，我們使用了56個可用類別中的50個，排除了通常以人為主要對象的6個類別。被排除在外的有豎琴、小提琴、雨傘、薩克斯管、球拍和小號。

3.3. Edge Map Creation

我們使用邊緣檢測和幾個后處理步驟來獲得類似草圖的邊緣圖。步驟如圖3所示：

b) 第一步是使用完整嵌套的邊緣檢測(HED)[58]來檢測邊緣，如Isola等人的[25]。

c\d) 在對輸出進行二值化並細化所有邊緣之后[61]，我們對孤立的像素進行清除，並刪除小的連接組件。

e) 接下來，我們在所有邊緣上設置一個閾值，進一步減少邊緣碎片的數量。

f) 剩下的spur被移除。

g) 由於邊緣非常稀疏，我們為每個邊緣映射計算一個無符號的歐幾里德距離場來獲得一個稠密的表示(參見圖3g)。在最近的三維形狀恢復研究中也使用了類似的距離場表示[53,17]。我們還計算了Sketchy數據庫中的距離場。

3.4. Training Adaptation from Edges to Sketches

因為我們的最終目標是構建一個從草圖生成圖像的網絡，所以有必要在邊緣圖和草圖上對網絡進行訓練。為了簡化訓練過程，我們使用了一種策略，將輸入從邊緣圖逐漸轉換為草圖圖:在訓練開始時，訓練數據主要是成對的圖像和邊緣圖。在訓練過程中，我們慢慢地增加草圖-圖像對的比例。令i_max為最大訓練迭代次數，i_cur為當前迭代次數，則草圖和邊緣圖在當前迭代中的比例為:

λ是一個可調的超參數，用來指示草圖比例的增長速度。在我們的實驗中我們使用λ= 1。很容易看出，P_sk從0.1緩慢增長到0.9。利用該訓練策略，我們消除了在邊緣圖單獨預訓練的需要，使整個訓練過程統一起來。我們將此方法與先對邊緣圖進行訓練，然后再對草圖進行微調的方法相比較。我們發現，相對於從邊緣到草圖的漸變(6.73 vs . 7.90)，離散的預訓練和隨后的微調會導致測試集中的Inception分數較低。

4. SketchyGAN

在本節中，我們提出了一個生成對抗網絡框架，它將輸入草圖轉換為圖像。我們的GAN學習了一個從輸入草圖x到輸出圖像y的映射，即:x→y。這個GAN有兩個部分，一個生成器G和一個判別器D。第4.1節介紹了掩碼殘差單元(Residual Unit, MRU)，第4.2節描述了網絡結構，第4.3節討論了目標函數。

4.1. Masked Residual Unit (MRU)

我們介紹了一個網絡模塊，它允許一個ConvNet在一個輸入圖像上條件反復。該模塊使用一個學習過的內部掩模，有選擇地從輸入圖像中提取新特征，並與迄今為止網絡計算出的特征圖相結合。我們稱這個模塊為掩碼殘差單元或MRU。
圖6顯示了掩碼單元(MRU)的結構：

與DCGAN[46]和ResNet生成架構的定性和定量比較可以在5.3節中找到。MRU塊有兩個輸入:輸入特征圖x_i和圖像I，輸出特征圖y_i。為了方便起見，我們只討論輸入和輸出具有相同空間維數的情況。令[·,·]為串聯，Conv(x)為x上的卷積，f(x)為激活函數。我們首先要將輸入圖像I中的信息合並到輸入特征映射xi中。一種幼稚的方法是沿着特征深度維度將它們串聯起來並執行卷積:

然而，如果塊能夠在接收到新圖像時決定它希望保留多少信息，那就更好了。所以我們采用以下方法:

m_i是輸入特征圖上的掩碼。可以在這里堆疊多個卷積層以提高性能。然后，我們希望動態地組合來自新卷積的特征圖z_i和原始輸入特征圖x_i的信息，因此我們使用另一個掩碼：

用來將輸入特征圖和新的特征圖連接起來，得到最后的輸出：

方程7中的第二項是殘差連接。由於有確定信息流的內部掩碼，我們稱這種結構為掩碼殘差單元。我們可以將多個這樣的單元堆疊起來，重復輸入不同的比例的相同的圖像，這樣網絡就可以在其計算路徑上動態地從輸入圖像中檢索信息。
MRU公式類似於門控遞歸單元(GRU)[7]。然而，我們的動機是不同的，有幾個關鍵的區別:

1) 我們的動機是重復輸入相同的圖像，以改善信息流。GRU被設計用來修飾遞歸神經網絡中的消失梯度。
2) GRU單元是周期性的，因此部分輸出被反饋回同一個單元，而MRU塊是級聯的，因此前一個塊的輸出被反饋到下一個塊。
3) GRU對每個步驟共享權重，因此它只能接收固定長度的輸入。沒有兩個MRU塊共享權值，因此我們可以像普通的卷積層一樣縮小或擴大輸出特征圖的大小。

4.2. Network Structure

我們完整的網絡結構如圖5所示:

該發生器采用編碼器-解碼器結構。編碼器和解碼器都是用MRU塊構建的，在這些MRU塊中，草圖被重新調整大小並輸入到路徑上的每個MRU塊中。在圖9的最佳結果中，我們還在編碼器和解碼器塊之間應用了跳躍連接，因此編碼器塊的輸出特征圖將連接到相應解碼器塊的輸出。判別器也是用MRU塊建造的，但是在空間尺寸上會縮小。在判別器的最后，我們輸出兩個logits，一個用於GAN loss，一個用於分類 loss。

4.3. Objective Function

設x、y為圖像或草圖，z為噪聲矢量，c為類標簽，我們的GAN目標函數可以表示為：

而生成器L_GAN (G)的目標是最小化第二項。

結果表明，給出模型側信息可以提高生成圖像的質量，因此我們在生成器中使用條件Instance Normalization[44]，並傳遞輸入草圖的標簽labels。此外，我們讓判別器從它看到的圖像中預測類標簽。判別器的輔助分類損失最大化預測標簽與真實標簽之間的對數似然值:

生成器則最大化與固定的判別器相同的對數似然L_ac(G) = L_ac(D)。
由於我們已經有了成對的圖像數據，我們能夠通過生成的圖像與真實圖像之間的L1距離對網絡進行直接監督:

然而，直接最小化生成圖像與真實圖像之間的L1損失會抑制多樣性，因此我們增加了感知損失來鼓勵網絡生成多樣化的圖像[8,27,4]。我們使用來自Inception-V4[52]的四個中間層來計算感知損失。讓φ_i作為Inception模型中一層的過濾器的響應。我們將生成器上的感知損失定義為:

為了進一步鼓勵多樣性，我們將高斯噪聲連接到生成器瓶頸處的特征圖上。以往的研究得出結論，有條件的GANs容易完全忽略噪聲[25]或由於噪聲[45]而產生更差的結果。簡單的多樣性損失為：

其將提高生成圖像的質量和多樣性。其解釋很簡單:z1和z2是一對不同的噪聲矢量條件作用於相同的圖像，那么生成器應該輸出一對有着輕微不同的圖像。

我們完整的生成器和判別去的損失是：

其中判別器使方程13值最大，發生器使方程14值最小。在實踐中，我們使用DRAGAN loss[31]來穩定訓練，使用focal loss[36]作為分類損失。

5. Experiments
5.1. Experiment settings

數據集分割. 我們從Sketchy的訓練分割中選取了50個類別的草圖-圖像對作為基本訓練數據，並使用邊緣映射-圖像對進行擴充。在接下來的小節中，我們將來自Sketchy數據庫的數據稱為“Sketchy”，而使用邊緣圖進行Sketchy增強的數據稱為“augmented Sketchy”。由於我們只對草圖到圖像的合成感興趣，所以所有的模型都是在Sketchy的測試分割上進行測試的。不管原始的長寬比如何，所有的圖像都被調整為64×64。草圖和邊緣圖都被轉換成距離場。
實現細節. 在所有實驗中，除了圖9使用32的批大小外，我們都使用8的批大小。我們在訓練中使用隨機的水平翻轉。我們使用Adam優化器[29]，設置生成器的初始學習率為0.0001,判別器的初始學習率為0.0002[20]。
評價指標. 對於我們的圖像合成任務，我們使用Inception分數[48]來衡量合成圖像的質量。Inception分數背后的直覺是一個好的合成圖像應該有容易被現成的識別系統識別的對象。除了Inception分數，我們還進行了一個感知的研究，評估生成的圖像有多真實，以及它們對輸入草圖有多忠實。

5.2. Comparison to Baselines

我們的比較集中在流行的pix2pix及其變體上。除了第一個模型外，所有的模型都接受了300k迭代的訓練。我們包括三個基線:

pix2pix on Sketchy. 這是最簡單的模型。我們直接采用作者的pix2pix代碼，並在Sketchy的50個類別中進行訓練。因為我們發現100k迭代后圖像質量停止改善，所以我們在150k迭代早期停止並報告結果。
pix2pix on Augmented Sketchy. 在這個模型中，我們在圖像-邊緣圖和圖像-草圖對上訓練了pix2pix，就像我們在我們的方法中所做的那樣。網絡結構和損失函數保持不變。
Label-Supervised pix2pix on Augmented Sketchy. 在該模型中，我們對pix2pix進行了修改，通過條件Instance Normalization將類標簽labels傳遞給生成器，並在判別器中加入了輔助的分類損失。這是一個更強的基線，因為標簽信息有助於網絡確定對象類型，從而提高生成的圖像質量[15,44]。

Inception分數的比較可以在表1中找到:

可視化結果可以在圖7中找到:

我們的觀察結果如下:

(i) 在Sketchy上訓練的pix2pix是失敗的，產生無法識別的色塊。模型無法從草圖轉換成圖像。由於pix2pix已經成功地實現了邊緣到圖像的轉換，這暗示着從草圖到圖像的合成更加困難。
(ii) 在經過增強的Sketchy上訓練的pix2pix表現稍好，開始產生物體的大致形狀。這表明邊緣圖有助於訓練。
(iii) 在Augmented Sketchy上的標簽監督的pix2pix比前兩個基線更好。它更經常地給對象正確着色，並開始生成一些有意義的背景。結果仍然是模糊的，並且可以觀察到許多人為因素。
(iv) 與基線相比，我們的方法生成更清晰的圖像，獲得正確的對象顏色，在對象上放置更詳細的紋理，並輸出有意義的背景。整個畫面也更加豐富多彩。

5.3. Component Analysis

在這里，我們分析模型的哪個部分更重要。我們解耦我們的目標函數並分析它的每個部分的影響。所有的模型都在有着相同的參數集的增強的Sketchy上訓練。具體比較見表5：

首先去除GAN損失和判別器（即-GAN）。結果是令人驚訝的糟糕，因為圖像非常模糊。這與isa等人的觀察結果一致。

接下來，我們刪除了輔助損失，並用Batch Normalization[24]代替條件Instance Normalization。這導致了圖像質量的顯著下降，以及錯誤的顏色和錯位的紋理。這表明類信息幫助很大，這是有意義的，因為我們從單個模型生成了50個類別。

然后我們去除L1損失和感知缺失。我們發現它們對圖像質量也有很大的影響。從樣本圖像我們可以看到，模型使用了錯誤的顏色，對象邊界是不現實的或有缺失得。

最后，我們去除多樣性損失，這樣做也會稍微降低圖像質量。這可能與我們如何應用這種多樣性損失有關，其迫使生成器生成真實但不同的圖像對。這鼓勵了泛化，因為生成器需要找到一個解決方案，即當給定不同的噪聲向量時，只在無約束區域(例如背景)對圖像進行更改。

MRU和其他結構的對比. 為了證明MRU塊的有效性，我們比較了MRU、ResNet、級聯細化網絡(CRN)[4]和DCGAN結構在圖像合成任務中的性能。我們訓練了幾個額外的模型:

一個使用改進的ResNet塊[19]，這是用於生成器和判別器中的，在[18]發布的最佳變體;
一是弱基線，采用DCGAN結構;
一個在生成器中使用CRN代替MRU;
一個是僅使用了GAN損失和ACGAN損失的MRU模型。

我們通過減少MRU中的特征深度來保持MRU模型和ResNet模型的參數數量大致相同。詳細的參數計數見表2：

從視覺質量和Inception分數來看，MRU模型比ResNet和CRN模型生成更好的圖像，我們證明即使只使用標准的GAN損失，MRU也比其他結構有更好的表現。從圖8中我們注意到MRU模型傾向於產生更高質量的前景對象。這可能是由於MRU的內部掩碼作為一種注意力機制，導致網絡選擇性地聚焦於主要對象。

在我們的任務中，這是有幫助的，因為我們主要對從草圖生成特定對象感興趣。

5.4. Human Evaluation of Realism and Faithfulness

我們做了兩次人工評估來衡量我們的模型在真實性和對輸入草圖的忠實度方面與基線的比較。在“忠實度”測試中，參與者可以看到pix2pix、SketchyGAN或使用在Sketchy數據庫[49]中學習到的表征進行1-最近鄰檢索的輸出。在每個圖像中，參與者還會看到9個相同類別的隨機草圖，其中一個是實際的輸入/查詢草圖。參與者被要求選擇得到輸出圖像的草圖。然后我們計算參與者選擇正確的輸入草圖的頻率，因此較高的正確選擇率表明模型產生了更“忠實”的輸出。

在“真實感”測試中，參與者會看到pix2pix變體和SketchyGAN的輸出成對比較，同時還會看到相應的輸入草圖。參與者被要求選擇他們認為更真實的圖像。對於每個模型，我們計算參與者認為它更真實的頻率。圖像檢索基線不用於評估真實性，因為它只返回現有的、真實的照片。

我們進行了696條“忠實”測試，348條“真實”測試。結果表明,SketchyGAN比檢索模型更忠實,但不如pix2pix忠實，pix2pix更常精確地保存輸入的邊緣(表3)：

與此同時,比起pix2pix變體，SketchyGAN被認為是更真實的(表4)：

結果符合我們的目標,我們的模型應該尊重輸入草圖的意圖,但同時在必要時偏離筆畫以產生真實的圖像。

6. Conclusion

在這項工作中，我們提出了一種新的方法來解決草圖到圖像的合成問題。鑒於草圖的性質，這個問題具有挑戰性，這就引入了一種深度生成模型，這種模型在草圖合成中很有前景。我們介紹了一種用於草圖-圖像對的數據增強技術，以鼓勵這方面的研究。所演示的GAN框架可以合成比現有生成模型更真實的圖像，生成的圖像也更多樣。目前，GANs的研究主要集中在尋找更好的概率度量作為目標函數，但在GANs中尋找更好的網絡結構的研究工作很少。我們為我們的生成任務提出了一個新的網絡結構，我們證明它比現有的結構表現得更好。
局限性. 理想情況下，我們希望我們的結果既真實又忠實於輸入草圖的意圖的。對於許多草圖，我們都不能達到其中一個或兩個目標。結果通常不是逼真的，也沒有足夠高的分辨率。有時過於忠實於草圖又會失去真實感 —— 例如瘦馬腿這種緊密遵循着糟糕繪制的輸入邊界的結果(如圖9)：

在其他情況下,我們所做的偏離用戶草圖，但是使輸出更真實(如在圖1中的摩托車和飛機,在圖9中的蘑菇,教堂,噴泉,和城堡),當然仍然尊重輸入草圖中對象的姿勢和位置。這是更可取的。人類的意圖是很難學習的，SketchyGAN的失敗，即太字面上地對待輸入的草圖，當然這可能是由於缺乏草圖-照片訓練對。盡管我們的結果還不具有真實感，但我們認為它比以前的方法有了很大的改進。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 圖像檢索（image retrieval）- 13 - Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval -1 - 論文學習論文筆記：Towards Diverse and Natural Image Descriptions via a Conditional GAN StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 論文筆記 styleGAN相關 - Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis(HiGAN) - 1 - 論文學習 attention - 1 - Residual Attention Network for Image Classification - 1 - 論文學習人臉檢測和識別以及檢測中loss學習 - 18 - Towards Universal Representation Learning for Deep Face Recognition(URFace) - 1 - 論文學習 sppNet論文學習 MUNIT：Multimodal Unsupervised Image-to-Image Translation - 1 - 論文學習，不成對數據圖像檢索（image retrieval）- 14 - MultiGrain: a unified image embedding for classes and instances -1 - 論文學習 VAE論文學習