2019-2020 文本生成圖片 Text To Image(T2I) Synthesis 論文整理


參考:文本生成圖像!GAN生成對抗網絡相關論文大匯總

(只看了摘要)

1.  A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis 

  介紹了關於GAN生成對抗網絡的相關Text-to-Image論文,將其分類為Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四類,介紹了代表性model,如下圖所示。

2. Adversarial Learning of Semantic Relevance in Text to Image Synthesis 

  介紹的模型以conditional GANs為基礎,改進了discriminator的一個輔助功能。該模型生成的圖片不受特定種類的限制,並且在語義上匹配文本輸入時不會模式崩潰(mode collapse)。采用了負采樣的訓練方法。數據集:Oxford-102 flflower,使用inception score和multi-scale structural similarity index (MS-SSIM) metrics評定可分辨率和生成圖片多樣性。

 

3. Controllable Text-to-Image Generation

  ControlGAN。可以控制圖片局部生成,一個word-level的generator。有github代碼:https://github.com/mrlibw/ControlGAN。

 

4. CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

  content parsing。同時parse文本和圖片。設計了一個memory structure。使用了一個conditional discriminator來判斷文本圖片局部的聯系。

 

5. Cycle Text-to-Image GAN with BERT

  基於Attention GAN的改進。引入循環機制,將生成的圖片翻譯回文本。以BERT預訓練的word embedding為基本text featurizer。

 

6. Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach

  使用文本控制image-to-image特定部分的改變,比如“把頭發的顏色變成紅色”。

 

7. Development of a New Image-to-text Conversion System for Pashto Farsi and Traditional Chinese

  這是ocr,已刪。

 

8. DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis

  針對高分辨率。提出了一個只有一隊discriminator和generator的基本模型,一個新的正則化方法來保證圖片和文本的semantic consistency,一個有效利用文本的語義特征並在生產過程中深入融合文本和圖像的深度文本圖像fusion block。

 

9. DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis

  現有的生成是先生成輪廓,在逐步細化。本論文針對當生成的輪廓效果不好時,引入一個dynamic memory module來修改生成的輪廓。

  數據集:Caltech-UCSD Birds 200 dataset, the Microsoft Common Objects in Context dataset

 

10.  Dual Adversarial Inference for Text-to-Image Synthesis

  學習了文本中的兩個部分:content(例如color, composition)和style description(例如location, quantity,size等),提出dual adversarial inference(雙重對抗性推理)。數據集:Oxford-102, CUB,COCO datasets.

 

11. Efficient Neural Architecture for Text-to-Image Synthesis

  using a single stage training with a single generator and a single discriminator。引入deep residual networks 和entence interpolation strategy來學習一個平滑的條件空間。
 
  基於不直接描述圖片的visual content長文本生成。模型基於StackGAN-v2。數據集:recipe1M。 
  代碼:https://github.com/netanelyo/Recipe2ImageGAN.
 
  文本控制image-to-image,數據集:COCO。
 
  介紹了MirrorGAN:text-to-image-to-text framework,思想有點類似於CycleGAN。
 
  通過使用特定的mode-seeking loss function 來規避圖片生成過程中發生的mode collapse,數據集:Caltech Birds (CUB) , Microsoft COCO。
 
  文本控制image-to-image生成。ManiGAN分為兩個部分:ACM建立要修改部分的text到image的映射,並對不需要修改的部分進行編碼,DCM完成修改。數據集:Caltech Birds (CUB) , Microsoft COCO。有代碼。
 
  通過結合perceptual understanding感知來生成good-initialized的輪廓。基於StackGAN。數據集MS COCO。
 
  不知道是什么論文,有點奇怪。待看。
 
  Object-driven的注意力GAN,專注於以對象為中心的text-to-image生成。數據集COCO。
 
  文本控制image-to-image生成。
 
  Segmentation Attention GAN。數據集CUB,Oxford-102。
 
  新的評估標准Semantic Object Accuracy (SOA)評斷文本和圖片的語義一致性。
 
  消除語義混亂。數據集:Caltech Birds (CUB) , Microsoft COCO。
 
  attention-based encoder學習word到pixel,條件自回歸decoder學習pixel到pixel和圖像的生成。使用了Structural Similarity Index評估。數據集:COCO,MNIST-with-captions。
 
  文本控制人像的image-to-image生成。用VQA Perceptual Score評估。(效果看起來不是很好)
 
  文本控制圖像修復。有代碼。
 
  文本生成圖片再生成視頻。分兩步訓練,先根據文本生成高質量的單幀圖片,再生成連續幀。
 
  先從圖片生成文本,在用到text-to-image 的訓練。數據集:LSUN-bedroom
 
  提出新的評估metrics,應該是向量距離差不多的東西。
 
  圖片文本互相轉化。輕量級模型。使用了transformer,和annealing conditional hinge loss。 數據集:CUB,MS-COCO。
 
 

  T2I可以用於計算機輔助設計,圖像編輯,游戲開發,圖像藝術生成。

  傳統的T2I:

 

 

  Attribute2Image 模型。

 

 

   multimodal learning指用多種方法學習。等同於multiple learning。

  講到的model:

  1. 使用conditional GANs,將文字作為condition label輸入,缺點:當文字有多個keyword或者是長文本時沒法同時限制輸入。

  

  2.與方法1不同,將文本作為input feature。

 

  3.使用金字塔generator和三個獨立的側重於圖像不同部位的discriminator,來在多個層次上建立photo-realistic圖像 

  4.判斷圖片semantic relevance語義相關性而不是以class prediction類預測。

  5. Semantic Enhancement GANs:主要目標在於讓生成圖像與輸入文本語義相關。一般將文本作為dense feature進行編碼,再作為輸入到另一個神經網絡來生成圖像。

  6.Resolution Enhancement GANs:主要目標在於生成高質量的與文本語義相關的圖像。一般使用multi-stage GAN,將前面的GAN的輸出作為輸入輸入到后面的GAN來生成更高質量的圖像。

  7.Diversity Enhancement GANs:生成擁有不同類型和外表特征的圖像。通過一個額外的部分來評估生成圖像和文本的語義相關性,來最大化diversity。

  8.Motion Enhancement GANs:生成視頻。先生成與文本動作匹配的圖像,再通過映射過程確保時間順序是一致的。

  9.Vo, D. M. and Sugimoto, A. (2018). Paired-d gan for semantic image synthesis:將前景和背景分開合成。skip-connection。

  10.MC-GAN(multi-conditional GAN):合成源圖像中的背景和由文本描述的前景。只使用卷積和normalization來提取背景特征,沒有用到線性函數。

  11.DC-GAN(Deep Convolutional GAN,2016):multimodal,結合了RNN和GAN。數據集:Caltech-UCSD Birds 和 Oxford-102 Flowers。

  12.StackGAN(Stacked Generative Adversarial Network) : 分為兩個階段,第一個階段生成rough image(低分辨率),第二個階段細調。改進版本使用了更多的stage。Conditioning Augumentation對文本進行高斯分布,並進行小的變動來增加diversity。

  12.5 StackGAN++:tree-like structure。

  13.AttnGAN:引入Attention機制。使用疊加的GAN,第一層輸入一個sentence-level的文本embedding和隨機噪聲向量,生成一個低分辨率的圖像,該圖像和word-level的文本embedding被送到‘attention model’,將每個詞和該圖像的一部分相對應,從而生成一個word-context矩陣。再將該矩陣和圖像輸入到下一層,以此類推。AttnGAN在CUB和COCO上的表現強於StackGAN和StackGAN++。

  14.DM-GAN(Dynamic Memory GAN):引入一個動態內存組件來細調生成的rough image,從而生成高質量的圖片。

  15.HD-GAN(Hierarchically-nested Adversarial Network):圖A表示的就是類似StackGAN的多階段生成的建構方式,前一階段的輸出作為下階段的輸入,逐步的提高生成圖像的分辨率;圖B是一個生成器對應對應多個判別器,這樣的方式實現了對於生成圖像不同方面的關注;圖C是逐步訓練對稱判別器和生成器的架構,同樣也是一種對階段生成的方式;圖D表示的就是HDGAN,通過單流的生成器和層次嵌套判別器的架構來實現端到端的訓練。詳細內容

  16.AC-GAN(Auxiliary Classified GAN):增加了一個輔助分類器,即判別器多了一個分類功能。https://zhuanlan.zhihu.com/p/91592775

 

 

   17.TAC-GAN:比起AC-GAN,將分類標簽用文本描述替代。

 

 

  18.Text-SeGAN: 將分類layer改成了回歸layer來量化語義相關。

  19.MirrorGAN:鏡像結構,結合了T2I和I2T。

  20.SceneGraphGAN:引入了Scene Graph(類似於Unity游戲引擎的Scene層次結構那種)的概念,將圖像改為Scene Graph,更方便確定物體的相對位置。

  21.T2V:text to video。基於cGAN。捕捉static特征(gist)和dynamic特征。生成的分辨率低。

  22.StoryGAN:Story encoder編碼故事整體的連續性,context encoder在deep RNN圖像生成過程中捕捉上下文信息,還有兩個discriminator來評估生成的圖像和story,以及整體的一致性。使用了CLEVER和Pororo cartoon數據集。

  

  Loss:

  1.Perceptual Loss:不僅與文本語義相關,而且保留無關特征。

  2.color-consistency loss。

  3.Deep Attentional Multimodal Similarity Model (DAMSM):在sentence-level和word-level計算圖像和文本的相似性。

  4. Inception Score(IS):計算條件分布的熵entropy(randomness)以及大量生成的圖片的邊緣分布。條件分布的entropy低意味着該圖片有意義,邊緣分布的entropy高意味着diversity。IS為兩個entropy之間的KL-divergence(散度)。

  5.FCN-Scores:根據生成的有意義的圖片會被分類到與其類似的圖片的類中,來計算。

  6.Frechet Inceptiondistance(FID):在分布上計算比較生成的圖片和真實的圖片,分數越高代表關聯性越低。

 

  數據集: 

  1.MNIST。

  2.Oxford-102:包含102種花,每一種花有40-58張圖片和相應的文本描述。

  3.COCO:有91類328k圖片,每張圖片里有多個物體,每個物體一個標簽,即一張圖片對應多個標簽。

  4.CUB:包含200 birds和相應的文本描述。

  5.CIFAR-10:60000張32x32彩色圖片,共10類,每類6000張。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM