ECCV 2018 | 給Cycle-GAN加上時間約束,CMU等提出新型視頻轉換方法Recycle-GAN


CMU 和 Facebook 的研究者聯合進行的一項研究提出了一種新型無監督視頻重定向方法 Recycle-GAN,該方法結合了時間信息和空間信息,可實現跨域轉換,同時保留目標域的風格。相較於只關注空間信息的Cycle-GAN,在視頻轉換中Recycle-GAN的過渡效果更加自然。

項目展示:http://www.cs.cmu.edu/~aayushb/Recycle-GAN/

該研究提出一種用於視頻重定向的無監督數據驅動方法,該方法能夠在保持目標域風格不變的基礎上,將一個域的連續內容遷移到另一個域中。這樣的內容轉換(content translation)和風格保存(style preservation)任務有很多應用,包括人體動作和人臉轉換(face translation)、教機器人模仿人類,或者將黑白視頻轉換為彩色。這項研究還可用來創建在現實世界中難以捕捉或標注的視覺內容,例如:對齊虛擬世界中兩個人的肢體動作和面部數據,或者為自動駕駛汽車標注夜間數據。最重要的是,內容轉換和風格保存的概念超越了從像素到像素的操作,成為更加語義化和抽象化的概念,更方便人類理解。

目前重定向的方法大致可分為三類。第一類是專門為人臉設計的 [5,41,42]。雖然這些方法在人臉完全可視的條件下表現很好,但不適於面部有遮擋的情況(虛擬現實),並且缺乏向其他域泛化的能力。(第二類)雖然成對圖像轉換的研究 [23] 試圖實現跨域泛化,但也需要對標注和對齊進行人工監督,而很多領域無法實現手動校對或標記。第三類方法嘗試無監督和非成對的圖像轉換 [26 ,53]。他們對非成對的 2D 圖像執行循環一致性(cyclic consistency),並學習從一個域到另一個域的轉換。然而,非成對的 2D 圖像不足以實現視頻重定向。首先,它不能充分約束優化,常常會導致極差的局部極小值或感知模式崩潰,難以在目標域中生成所需的輸出。第二,只利用 2D 圖像的空間信息很難學習到特定域的風格,因為風格信息也需要時間信息。

研究者在該研究中做了兩項觀察:(1)時間信息的利用為優化從一個域到另一個域的轉換提供了更多的約束,有助於得到更好的局部極小值;(2)時間和空間約束的結合有助於學習到給定域的風格特征。重要的是,時間信息在視頻中是可以免費獲取的(在網頁中可以獲得大量此類信息),因此無需人工監督。圖 1 顯示了人臉和花朵的轉換示例。在沒有任何人工監督和特定域知識的情況下,該方法通過使用網頁上來自兩個域的公共視頻數據,學習到了從一個域到另一個域的重定向。

圖 1:本研究提出的視頻重定向方法應用於人臉和花朵的示例。第一行展示了從 John Oliver 到 Stephen Colbert 的轉換。第二行展示了合成的花朵跟隨輸入花朵綻放的過程。

該研究的貢獻:介紹了一種新方法,將時空線索與條件生成對抗網絡 [15] 結合起來應用於視頻重定向。作者展示了在不同條件下,時空約束相比於圖像到標簽和標簽到圖像的空間約束的優勢。然后,研究者展示了學習兩個域之間更好關聯的方法,以及它對視覺數據的自監督內容對齊的重要性。受時空恆久存在的啟發,研究者定性地展示了該方法對於各種自然過程的有效性,例如人臉轉換、花朵轉換、合成雲與風、對齊日出和日落等。

論文:Recycle-GAN: Unsupervised Video Retargeting

論文鏈接:https://arxiv.org/abs/1808.05174

摘要:本研究介紹了一種用於無監督視頻重定向的數據驅動方法,該方法將一個域的內容轉換到另一個域,同時保留目標域的原本風格,例如將 John Oliver 的演講內容轉換到 Stephen Colbert,則生成的內容/演講應該是 Stephen Colbert 的風格。該方法結合了空間和時間信息以及內容轉換和風格保存方面的對抗損失。在這項研究中,我們首先證明了使用時空約束比只使用空間約束在重定位中更具優勢。然后展示了如何利用該方法處理具備時空信息的問題,例如人臉轉換、花朵轉換、風雲合成和日出日落等。

圖 2:空間循環一致性並不足夠:我們展示了兩個示例來說明為什么空間循環一致性不足以進行優化。(a)展示了將 Cycle-GAN [53] 應用於由特朗普到奧巴馬的轉換時出現感知模式崩潰的例子。第一行是輸入的特朗普圖像,第二行顯示生成的輸出。第三行顯示以第二行作為輸入的重輸出。盡管輸入不同,但第二行的幾幅圖像看起來很相似;第三行輸出與第一行類似。經過仔細觀察,我們發現第二行中只有幾個像素是不同的(但看起來並不明顯),而這就足以得到完全不同的重構結果;(b)圖像到標簽和標簽到圖像的例子。雖然在這兩種情況下,生成器都不能為給定輸入生成期望輸出,但它仍能完美地重構輸入。這兩個例子表明,空間循環損失無法保證在另一個域中得到期望輸出,因為全局優化的重點是重構輸入。然而,如 (c) 和 (d) 所示,我們的方法結合空間和時間約束,得到了更好的輸出。

實驗

我們現在研究時空約束對空間循環約束的影響。由於我們的關鍵技術貢獻是在學習非成對圖像映射時引入時間約束,所以自然基線是 CycleGAN [53],這是一種廣泛采用的方法,僅利用空間循環一致性進行非成對圖像轉換。我們首先在輸入和輸出視頻之間的真值對應已知(如視頻中每個幀對應一個語義標簽圖)的域上展示了定量結果。重要的是,該對應配對不適用於 Cycle-GAN 或 Recycle-GAN,僅用於評估。然后,我們在一組對應關系未知的視頻上展示了定性結果,包括不同人臉的視頻轉換和自然界中的長時事件(鮮花盛開、日出/日落、隨時間流逝的天氣變化)。

定量分析

表 1:圖像到標簽(語義分割):我們使用 Viper [36] 數據集來評估使用時空約束而非空間循環一致性 [53] 時的性能改進。結果使用三種標准來判定:(1) 平均像素精度 (MP);(2) 平均分類精度 (AC);(3) IoU(Intersection over union)。可以發現,該方法比以前的研究有更好的性能,二者結合會取得更好的性能。

表 2:標簽到圖像的歸一化 FCN 分數:我們在 Viper 數據集上使用一個預訓練的 FCN-style 模型來評估合成圖像的質量。在此標准上的更高性能表明特定方法生成的輸出圖像更接近真實圖像。

定性分析

圖 5:人臉到人臉轉換:最上面一行展示了使用我們的方法對 John Oliver 和 Stephen Colbert 進行人臉轉換的多個示例。最下面的一行是從 John Oliver 到卡通人物、從奧巴馬到特朗普、從馬丁•路德•金到奧巴馬的人臉轉換示例。沒有任何輸入對齊或手動監督,該方法可以捕捉到這些公眾人物的面部特征。比如 John Oliver 微笑時的酒窩、特朗普特別的嘴型,以及 Stephen Colbert 的嘴型和微笑。

 

圖 6:花到花的轉換:展示了花朵轉換的兩個例子。從左到右的過渡非常自然。

 

圖 8:日出和日落:我們使用該方法來處理和對齊日出和日落的視頻。頂行顯示日落視頻的示例幀。我們基於日出的視頻數據(第二行),使用我們的方法學習兩個域之間的轉換。第三行是新合成的日出視頻的示例幀。底行展示了不同日出和日落視頻中輸入-輸出對的隨機示例。

 

方法

圖 3:我們將這項研究與圖像轉換中的兩個優秀方法做了對比。(a)Pix2Pix [23]:使用用成對數據。通過回歸學習一個簡單的函數 (Eq. 1),以映射 X → Y。(b)Cycle-GAN:使用非成對數據。Zhu 等人 [53] 提出使用循環一致性損失 (Eq. 3) 來處理非成對數據的問題。(c)Recycle-GAN:目前的方法都只考慮了獨立的 2D 圖像。假設我們可以獲取非成對但有序的數據流 (x_1, x_2, . . . , x_t, . . .) 和 (y_1, y_2 . . . , y_s, . . .),我們提出一種結合時間與空間約束的方法 (Eq. 5)。

圖 4:我們對比了我們的方法和 Cycle-GAN 在 image2label 和 labels2image 上的性能,實驗在 Viper 數據集的留出數據上進行。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM