“塗鴉”變風景 NVIDIA SPADE
Semantic Image Synthesis with Spatially-Adaptive Normalization
利用空間適應正規化進行語義圖片合成(論文)
功能
橫向:利用分段匹配進行語義操作
從橫向上看,不同的顏色代表不同的對象,譬如棕色代表樹,深藍色代表海洋。不同顏色合成出來的東西不同,不同形狀合成出來的東西也不同。
縱向:利用指示圖片進行風格化
從縱向上看,利用不同的指示圖片合成的效果也會不一樣。
方法:語義圖片合成
假定 $ m \in \mathbb{L}^{H \times W}$ 是語義分段掩碼(semantic segmentation mask)
\(\mathbb{L}\) : 用於表示語義標簽(semantic label)的一組整數
\(m\) : 一個像素的語義標簽
目標:學習匹配函數,使之能把輸入分段的掩碼m轉換成類真實照片的圖片
空間適應去正規化(Spatially-adaptive denormalization)
\(h_i\):第\(i\)層layer的激活函數
\(C_i\):在這層layer中channel數
SPADE(SPatially-Adaptive DEnomalization):卷積正規化
激活值(\(n \in N, c \in C^i, y \in H^i, x \in W^i\)):\(\gamma_{c,y,x}^i(m)\frac{h_{n,c,y,x}^i-\mu_c^i}{\sigma_c^i}+\beta_{c,y,x}^i(m)\)
\(h_{n,c,y,x}^i\):正規化之前的激活函數
\(\mu_c^i\):在channel c的激活函數的平均值
\(\mu_c^i = \frac{1}{N H^i W^i} \sum_{n,y,x}h_{n,c,y,x}^i\)
\(\sigma_c^i\):在channel c的激活函數的標准差
\(\sigma_c^i = \sqrt{\frac{1}{N H^i W^i} \sum_{n,y,x}(h_{n,c,y,x}^i)^2-(\mu_c^i)^2}\)
SPADE生成器
SPADE運行結果更好的原因
這個方法能夠更好地從共同正規化層中保護語義信息。
多模型合成
訓練時,添加KL-Divergence損失層。
與現存方法對比
SPADE outperforms existing methods on the COCO-Stuff dataset, which is more challenging than the Cityscapes dataset due to more diverse scenes and labels. The images above are the ones authors liked.
將之用於Flickr數據庫圖片
Since SPADE works on diverse labels, it can be trained with an existing semantic segmentation network to learn the reverse mapping from semantic maps to photos. These images were generated from SPADE trained on 40k images scraped from Flickr.
這些圖片是利用訓練了從Flickr上抓取的4萬張圖片的SPADE而生成的。