(只看了摘要)
1. A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
介紹了關於GAN生成對抗網絡的相關Text-to-Image論文,將其分類為Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四類,介紹了代表性model,如下圖所示。

2. Adversarial Learning of Semantic Relevance in Text to Image Synthesis
介紹的模型以conditional GANs為基礎,改進了discriminator的一個輔助功能。該模型生成的圖片不受特定種類的限制,並且在語義上匹配文本輸入時不會模式崩潰(mode collapse)。采用了負采樣的訓練方法。數據集:Oxford-102 flflower,使用inception score和multi-scale structural similarity index (MS-SSIM) metrics評定可分辨率和生成圖片多樣性。
3. Controllable Text-to-Image Generation
ControlGAN。可以控制圖片局部生成,一個word-level的generator。有github代碼:https://github.com/mrlibw/ControlGAN。
4. CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis
content parsing。同時parse文本和圖片。設計了一個memory structure。使用了一個conditional discriminator來判斷文本圖片局部的聯系。
5. Cycle Text-to-Image GAN with BERT
基於Attention GAN的改進。引入循環機制,將生成的圖片翻譯回文本。以BERT預訓練的word embedding為基本text featurizer。
6. Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach
使用文本控制image-to-image特定部分的改變,比如“把頭發的顏色變成紅色”。
7. Development of a New Image-to-text Conversion System for Pashto Farsi and Traditional Chinese
這是ocr,已刪。
8. DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis
針對高分辨率。提出了一個只有一隊discriminator和generator的基本模型,一個新的正則化方法來保證圖片和文本的semantic consistency,一個有效利用文本的語義特征並在生產過程中深入融合文本和圖像的深度文本圖像fusion block。
9. DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis
現有的生成是先生成輪廓,在逐步細化。本論文針對當生成的輪廓效果不好時,引入一個dynamic memory module來修改生成的輪廓。
數據集:Caltech-UCSD Birds 200 dataset, the Microsoft Common Objects in Context dataset
10. Dual Adversarial Inference for Text-to-Image Synthesis
學習了文本中的兩個部分:content(例如color, composition)和style description(例如location, quantity,size等),提出dual adversarial inference(雙重對抗性推理)。數據集:Oxford-102, CUB,COCO datasets.
11. Efficient Neural Architecture for Text-to-Image Synthesis
T2I可以用於計算機輔助設計,圖像編輯,游戲開發,圖像藝術生成。
傳統的T2I:

Attribute2Image 模型。

multimodal learning指用多種方法學習。等同於multiple learning。
講到的model:
1. 使用conditional GANs,將文字作為condition label輸入,缺點:當文字有多個keyword或者是長文本時沒法同時限制輸入。

2.與方法1不同,將文本作為input feature。

3.使用金字塔generator和三個獨立的側重於圖像不同部位的discriminator,來在多個層次上建立photo-realistic圖像
4.判斷圖片semantic relevance語義相關性而不是以class prediction類預測。
5. Semantic Enhancement GANs:主要目標在於讓生成圖像與輸入文本語義相關。一般將文本作為dense feature進行編碼,再作為輸入到另一個神經網絡來生成圖像。
6.Resolution Enhancement GANs:主要目標在於生成高質量的與文本語義相關的圖像。一般使用multi-stage GAN,將前面的GAN的輸出作為輸入輸入到后面的GAN來生成更高質量的圖像。
7.Diversity Enhancement GANs:生成擁有不同類型和外表特征的圖像。通過一個額外的部分來評估生成圖像和文本的語義相關性,來最大化diversity。
8.Motion Enhancement GANs:生成視頻。先生成與文本動作匹配的圖像,再通過映射過程確保時間順序是一致的。
9.Vo, D. M. and Sugimoto, A. (2018). Paired-d gan for semantic image synthesis:將前景和背景分開合成。skip-connection。
10.MC-GAN(multi-conditional GAN):合成源圖像中的背景和由文本描述的前景。只使用卷積和normalization來提取背景特征,沒有用到線性函數。
11.DC-GAN(Deep Convolutional GAN,2016):multimodal,結合了RNN和GAN。數據集:Caltech-UCSD Birds 和 Oxford-102 Flowers。
12.StackGAN(Stacked Generative Adversarial Network) : 分為兩個階段,第一個階段生成rough image(低分辨率),第二個階段細調。改進版本使用了更多的stage。Conditioning Augumentation對文本進行高斯分布,並進行小的變動來增加diversity。
12.5 StackGAN++:tree-like structure。
13.AttnGAN:引入Attention機制。使用疊加的GAN,第一層輸入一個sentence-level的文本embedding和隨機噪聲向量,生成一個低分辨率的圖像,該圖像和word-level的文本embedding被送到‘attention model’,將每個詞和該圖像的一部分相對應,從而生成一個word-context矩陣。再將該矩陣和圖像輸入到下一層,以此類推。AttnGAN在CUB和COCO上的表現強於StackGAN和StackGAN++。
14.DM-GAN(Dynamic Memory GAN):引入一個動態內存組件來細調生成的rough image,從而生成高質量的圖片。
15.HD-GAN(Hierarchically-nested Adversarial Network):圖A表示的就是類似StackGAN的多階段生成的建構方式,前一階段的輸出作為下階段的輸入,逐步的提高生成圖像的分辨率;圖B是一個生成器對應對應多個判別器,這樣的方式實現了對於生成圖像不同方面的關注;圖C是逐步訓練對稱判別器和生成器的架構,同樣也是一種對階段生成的方式;圖D表示的就是HDGAN,通過單流的生成器和層次嵌套判別器的架構來實現端到端的訓練。詳細內容

16.AC-GAN(Auxiliary Classified GAN):增加了一個輔助分類器,即判別器多了一個分類功能。https://zhuanlan.zhihu.com/p/91592775
17.TAC-GAN:比起AC-GAN,將分類標簽用文本描述替代。

18.Text-SeGAN: 將分類layer改成了回歸layer來量化語義相關。
19.MirrorGAN:鏡像結構,結合了T2I和I2T。
20.SceneGraphGAN:引入了Scene Graph(類似於Unity游戲引擎的Scene層次結構那種)的概念,將圖像改為Scene Graph,更方便確定物體的相對位置。
21.T2V:text to video。基於cGAN。捕捉static特征(gist)和dynamic特征。生成的分辨率低。
22.StoryGAN:Story encoder編碼故事整體的連續性,context encoder在deep RNN圖像生成過程中捕捉上下文信息,還有兩個discriminator來評估生成的圖像和story,以及整體的一致性。使用了CLEVER和Pororo cartoon數據集。
Loss:
1.Perceptual Loss:不僅與文本語義相關,而且保留無關特征。
2.color-consistency loss。
3.Deep Attentional Multimodal Similarity Model (DAMSM):在sentence-level和word-level計算圖像和文本的相似性。
4. Inception Score(IS):計算條件分布的熵entropy(randomness)以及大量生成的圖片的邊緣分布。條件分布的entropy低意味着該圖片有意義,邊緣分布的entropy高意味着diversity。IS為兩個entropy之間的KL-divergence(散度)。
5.FCN-Scores:根據生成的有意義的圖片會被分類到與其類似的圖片的類中,來計算。
6.Frechet Inceptiondistance(FID):在分布上計算比較生成的圖片和真實的圖片,分數越高代表關聯性越低。
數據集:
1.MNIST。
2.Oxford-102:包含102種花,每一種花有40-58張圖片和相應的文本描述。
3.COCO:有91類328k圖片,每張圖片里有多個物體,每個物體一個標簽,即一張圖片對應多個標簽。
4.CUB:包含200 birds和相應的文本描述。
5.CIFAR-10:60000張32x32彩色圖片,共10類,每類6000張。
