#論文筆記# [pix2pixHD] High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs


Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. "High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs", in CVPR, 2018.

摘要:

我們提出了一個新方法,使用CGANs從語義標簽圖生成高分辨率的逼真圖像。CGANs已經被應用在多種場景,但是其結果總是局限在低分辨率,還不夠真實。在這個工作中,我們通過一個新的對抗損失,新的多尺度生成器和判別器架構,來生成2048x1024的吸引人的結果。此外,我們還通過兩個附加特性將框架擴展到交互式可視化操作。首先,我們合並了物體的實例分割信息,它支持對物體的操作,例如刪除/添加對象和更改對象類別。此外,我們提出了一種方法,在相同的輸入條件下生成不同的結果,支持用戶交互式地更改物體外觀。人類的意見研究表明,我們的方法明顯優於現有的方法,提高了深度圖像合成和編輯的質量和分辨率。

介紹

實現以下功能:
主功能:通過一個新的對抗損失和多尺度生成器、判別器來生成高清圖像,同時perceptual loss可進一步略微提高合成效果。
交互式拓展1:使用實例級物體分割信息,可進一步提高圖像質量,實現對物體的靈活修改(物體增刪,換類別)。
交互式拓展2:提取實例級特征,實現一對多的圖像生成,支持物體的特征編輯。

方法

1. 主功能

主功能是一個coarse to fine的過程。分為三個部分:coarse-to-fine generator, multi-scale discriminators, improved adversarial loss。

  • coarse-to-fine generator
    生成器由兩個子網絡G1和G2組成,其中G1是全局生成器,G2是局部增強生成器。
    G1的架構是基於[22]的,有三部分:a convolutional front-end G1(F) , a set of residual blocks G1(R) [18], and a transposed convolutional back-end G1(B)。輸入輸出的分辨率均為1024*512。
    G2的結構與G1相同,三部分G2(F), G2(R), G2(B)。不同於G1的是,G2的輸入標簽圖和輸出圖像分辨率為2048*1024。另一個不同點是,G2(R)的輸入是G2(F)和G1(B)的輸出(最后一層)的feature map的element-wise sum。
    訓練過程中,先訓練G1,后訓練G2,再一起fine-tune。

  • multi-scale discriminators
    使用多尺度判別器做高分辨率判別器,即3個相同網絡架構但處理圖像尺寸不同的判別器。處理圖像的尺寸分別是2048*1024,1024*512,512*256。訓練時分別用三種尺度的真假圖像訓練判別器。
    其中,處理coarsest尺度的判別器有最大的感受野,更全局的視野,能使生成器生成全局一致(連續)的圖像。處理finest尺度的判別器能使得生成器產生更精細的細節。

  • improved adversarial loss
    添加一個基於判別器的feature matching loss,穩定訓練。即從判別器的中間層提取特征,學習匹配真實圖像和生成圖像的這些中間表示。(具體含義還得看代碼參透)

    這個feature matching loss 和perceptual loss相關。實驗中討論了兩個loss一起提高性能的效果。
    加入了feature matching loss的目標函數如下:

2. 交互式擴展1

原理:提出實例圖中最重要的信息是物體邊界,因此計算實例邊界圖(instance boundary map)。
計算方法:一個像素點與周圍四個像素標簽全部相同則賦值0,否則賦值1。即邊界處為1,物體內部為0。
具體實現:實例邊界圖和語義標簽圖(原輸入)的one-hot vector表示串聯,輸入生成器。同樣,判別器的輸入是實例邊界圖、語義標簽圖和真假圖像這三者的通道級串聯。
效果:加入實例邊界圖的模型能生成更真實的物體邊界。

3. 交互式擴展2

原理:提出添加低維特征通道作為生成器的輸入,從而可以通過修改這些特征來對生成圖像進行靈活控制。
計算方法:訓練一個編碼器網絡E,來尋找對應於圖像中每個實例的目標的低維特征向量。編碼器架構是標准的encoder-decoder網絡。在encoder的輸出層加上實例級的平均池化層來計算實例的平均特征,然后平均特征傳播給該實例的所有像素點。
具體實現:訓練中,編碼器和生成器判別器一起訓練。一旦編碼器訓練好,就在訓練集中所有實例上運行編碼器來記錄得到的特征。然后對每個語義類別的所有特征執行k-means聚類算法,從而每個聚類都編碼了一個特定風格的特征。在推斷階段,隨機選取一個聚類中心作為特征,這個特征將和標簽圖一起輸入到生成器中。

實現

實現細節:lambda = 10,K = 10(k-means),
Baselines:pix2pix,CRN
評價准則:語義分割scores,MTurK


論文中方法較多,n個問題有待解答。看代碼后再補充。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM