論文:Image Processing Using Multi-Code GAN Prior, CVPR2020
代碼:https://github.com/genforce/mganprior
這是來自香港中文大學周博磊老師的工作。
盡管生成式對抗網絡(GANs)在圖像合成方面取得了成功,StyleGAN和BigGAN能夠合成高質量的圖像。這些方法能夠從大量觀測數據中捕捉多種層次的語義信息。但當前研究還沒有把這些訓練好的模型做為先驗信息應用於真實圖像處理(resuing these models as prior to real image processing remains much less explored)。
要實現這一目的,面臨的主要挑戰是:GAN模型通常從隨機噪聲中合成圖像,無法處理真實圖像。因此,可以考慮將真實圖像轉化為潛在編碼(latent code),然后輸入生成器來重建圖像。
作者指出,無法使用單一潛在編碼重建圖像(impossible to recover every detail of any arbitrary real image using a single latent code)。因此,作者使用\(N\)個潛在編碼\(Z_n\),每個編碼都可以重建目標圖像的某個子區域。
在本文中,生成器 \(G(\cdot)\) 被分為兩個子網絡 \(G_1^{(\ell)}(\cdot)\) 和 \(G_2^{(\ell)}(\cdot)\). 對於任何\(z_n\), 能夠提取相應的空間特征\(F_{n}^{(\ell)} = G_1^{(\ell)}(z_n)\) 來用於合成(\(\ell\) 是網絡中間層的index)。
因為GAN中生成器的不同通道負責生成不同的visual concept(目標、紋理等),作者使用了自適應通道權重系數 \({\alpha}_n\) 為\(z_n\)加權,使它們與各自己語義對應。

該方法整體架構如圖所示,生成的特征在中間層組合,同時會有adaptive channel importance score來自適應調節權重。所有的 latent codes 和 channel importance score 最終使用重建損失和 perceptual loss來進行優化。
作者使用該方法做了多組應用:圖像着色、超分辨率、圖像補全,均取得了非常好的效果。
