這里簡短地談一下如題的三篇論文:
參考:https://blog.csdn.net/gdymind/article/details/82696481
(1)pix2pix:從一張圖片生成另一張圖片
pipeline如下,其中generator為U-net;
(2)Cycle GAN:pix2pix需要成對圖片訓練,CycleGAN解決了這個問題,可以不成對,但要同類!
pipeline如下:
(3)pix2pix HD
參考:https://www.jianshu.com/p/eb29a264c71a
pipeline如下,
上圖的Image generator network G具體結構如下:
總的流程:輸入原始低分辨率RGB圖像,一方面先獲得它的Labels(semantic labels語義標簽 + 對應的Boundary label),另一方面輸入經過一個Encoder得到特征圖后根據Labels做average pooling獲得instance-wise feature map,然后兩者一起輸入進G中進行生成,生成器由兩部分組成,G1和G2,其中G2又被割裂成兩個部分。G1和pix2pix的生成器沒有差別,就是一個end2end的U-Net結構。G2的左半部分提取特征,並和G1的輸出層的前一層特征進行相加融合信息,把融合后的信息送入G2的后半部分輸出高分辨率圖像。判別器使用多尺度判別器,在三個不同的尺度上進行判別並對結果取平均。判別的三個尺度為:原圖,原圖的1/2降采樣,原圖的1/4降采樣。顯然,越粗糙的尺度感受野越大,越關注全局一致性。
(Labels)