[論文筆記]Toward Characteristic-Preserving Image-based Virtual Try-On Network

本文轉載自查看原文 2018-11-14 09:17 1519 深度學習/ 論文筆記

這篇論文在VTION基礎上進行了改進，提出兩個模塊GMM與Try-On，能夠將服裝轉換為適合目標人物的體型，並保留服裝的細節(例如紋理、標志、刺綉等)。作者在論文中提到，該論文主要有四大貢獻：

（1）提出了一種新的虛擬試穿網絡CP-VTON（Characteristic-Preserving image based Virtual Try-On Network），解決了在真實的虛擬試穿情況下面臨的在大空間變形時的服裝細節的保留問題。

（2）通過GMM模塊整合了全學習的TPS，用來獲得更健壯和更強大的對齊圖像。

（3）在給定對齊圖像的基礎上，通過Try-On模塊來動態合並渲染結果與變形結果。

（4）CP-VTON網絡的性能已經在Han等人收集的數據集上進行了證明。

一、Motivation

該論文將基於圖像的虛擬試穿任務看作一個 image-conditioned generation 問題，而之前的條件圖像生成工作無法滿足虛擬試穿中“在保留目標服裝細節的情況下將服裝轉換為適合目標人物的體型”這一關鍵要求，於是作者提出了一個網絡CP-VTON，它通過幾何匹配模塊GMM，將目標服裝轉換為適合目標人物體型的形狀，之后，通過Try-On模塊將變形后的服裝與人物整合並渲染整合后的圖像，從而有效解決該關鍵要求。

二、CP-VTON

CP-VTON的網絡結構：

（一）Person Representation

網絡的輸入之一人物表示 $p$ 由三個部分組成，分別是：

（1）Pose heatmap：一個$18$通道的特征圖，每個通道對應一個人體姿勢關鍵點（繪制為$11\times11$的白色矩形）。

（2）Body shape：一個$1$通道的 blurred binary mask 特征圖，能夠粗糙地包括人體的不同部位。

（3）Reserved regions：一個包括面部和頭發的RGB圖像，用來維持人物身份（保證生成的是同一個人）。

以上三個部分的特征圖都被縮放到 $256 \times192$ 大小，並連接在一起組成 $k=18+1+3=22$ 通道的人物表示圖 $p$ 。

（二）GMM

GMM是一種用 pixel-wise L1 loss 訓練的端到端神經網絡，用來將輸入服裝 $c$ 與人物表示 $p$ 對齊，並產生扭曲的服裝圖像 $\hat{c}$。

GMM由四部分組成：

（1）兩個分別用於提取 $p$ 和 $c$ 的高級特征的網絡。

（2）Correlation Matching：將兩個高級特征組合為單個張量的相關層，作為回歸網絡的輸入。

（3）用於預測空間變換參數 $\theta$ 的回歸網絡。

（4）TPS Warping：將圖像變形為輸出 $\hat{c} = T$$_\theta$$(c)$ 。

網絡的連接是端到端的，使用一個三元組 $(p, c, c$$_t$$)$ 進行訓練，其中$c$$_t$為ground truth。這一部分的損失函數為：

　　　　　　　　　　　　　　$\mathcal{L}$$_G$$_M$$_M$$(\theta)$$=\parallel$$\hat{c}$$-$$c$$_t$$\parallel$$_1$$=\parallel$$T$$_\theta$$(c)-c$$_t$$\parallel$$_1$

（三）Try-On

在Try-On模塊中，將人物表示 $p$ 與扭曲的服裝圖像 $\hat{c}$ 連接作為輸入到U-Net中，經過encoder-decoder得到粗糙的合成圖像 $I$$_r$，並預測了一個Composition Mask $M$，之后，使用 $M$ 將 $I$$_r$ 和 $\hat{c}$ 融合在一起，得到最終的結果 $I$$_o$ 。其中：

　　　　　　　　　　　　　　　　$I$$_o$$=M$ $\odot$ $\hat{c}+(1-M)\odot I$$_r$

$\odot$ 代表element-wise矩陣乘法。

網絡使用三元組 $(p,c,I$$_t$$)$ 進行訓練，訓練的目標是最小化網絡輸出 $I$$_o$ 與 ground truth $I$$_t$ 之間的差異，損失函數為L1 loss與VGG感知損失的組合，其中VGG感知損失的定義是：

　　　　　　　　　　　　　　$\mathcal{L}$$_{VGG}$$(I$$_o$$,I$$_t$$)$ $=$ $\sum\limits_{i=1}^5$ $\lambda$$_i$ $\parallel\phi$$_i$$(I$$_o$$)$ $-$ $\phi$$_i$$(I$$_t$$)\parallel$$_1$

其中，$\phi$$_i(I)$ 表示在預訓練的VGG19網絡中第 $i$ 層的圖像 $I$ 的特征圖（ $i\ge{1}$ 的層分別代表‘conv1_2’，‘conv2_2’，‘conv3_2’，‘conv4_2’，‘conv5_2’）。為了保持服裝的細節，作者使用L1正則 $\parallel{1}$ $-$ $M\parallel$$_1$來偏置Composition Mask $M$ ，使得最終的合成圖像盡可能多的選擇warped clothes。Try-On模塊的整體損失為：

　　　　　　　　　　　$\mathcal{L}$$_{TOM}$ $=$ $\lambda$$_{L1}$$\parallel$$I$$_o$ $-$ $I$$_t$$\parallel$$_1$ $+$ $\lambda$$_{vgg}$$\mathcal{L}$$_{VGG}$$(\hat{I},I)$ $+$ $\lambda$$_{mask}\parallel$$1$ $-$ $M\parallel$$_1$

三、Experiments

（一）Implementation Details

Training Setup：

　　$\lambda$$_{L1}$ = $\lambda$$_{vgg}$ = $\lambda$$_{mask}$ = 1

　　steps = 20,000

　　batch size = 4

　　input image size = 256 x 192

　　使用Adam優化，其中 $\beta$$_1$ = 0.5，$\beta$$_2$ = 0.999，學習率在前10,000步為0.0001，之后線性衰減到0。

（二）Test Result

作者的開源代碼在這里

測試結果如下：