Taylor Guo @ Shanghai - 2018.10.18
緣起
還有什么比頂級會議更適合尋找有趣新想法的地方嗎?我們從CVPR 2018 計算機視覺和模式識別的頂級會議中發現了很多有趣的東西。
GAN和CV
-
尋找室外場景中的小臉
在沙特和中國研究人員的合作中,使用GAN來檢測和放大人群照片上非常小的面孔。即使只是檢測小臉,也是一個有趣的問題,常規的臉部探測器通常無法解決。這里,作者提出了一個端到端的方法來提取人臉,然后用生成模型將其提升4倍(一個稱為超分辨率的過程)。
以下是主要流程:
-
PairedCycleGAN for Makeup
條件生產對抗網絡已經廣泛用於圖像處理;剛才提到過超分辨率,生成對抗網絡也成功進行了風格轉換。使用GAN,可以學習與特定圖像元素相對應的顯着特征 - 然后更改它們! 普林斯頓,伯克利和Adobe的研究人員提出了一個修飾照片的架構。這項工作的一個有趣的部分是為不同的面部成分(眼睛,嘴唇,皮膚)訓練單獨的生成器並單獨應用它們,用不同的網絡提取面部成分:
-
GANerated Hands
位姿估計中的一個非常重要的子集(通常需要單獨的模型)是手部跟蹤。通過揮動雙手來操縱計算機尚未完全實現,仍然需要專門的硬件,如Kinect。主要問題之一是數據:哪里可以找得到手部3D標記的真實視頻流?這項工作,提出了一種條件生成對抗網絡架構,能夠將合成的3D手部模型轉換為圖像用於訓練手部跟蹤網絡。合成數據是當下非常重要的工作之一,可以更詳細地考慮它。如下是“從合成到真實”的生成對抗網絡架構:
-
人員數據集風格轉移GAN
Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
人員重識別(ReID)是在不同條件和不同情況下拍攝的不同照片上找到同一個人的問題。這個問題自然而然引起了很多的研究,現在已經相對好理解,但是仍然存在一些問題:人物圖像的不同數據集差異比較大啊(如 照明,背景等),在一個數據集上訓練好的網絡在遷移到另一個數據集(比如真實的應用場景中)時性能損失。上圖就是展示了不同數據集的差異。為了解決這個問題,這項工作提出了一種GAN架構,能夠將圖像從一種“數據集風格”遷移到另一種“數據集風格”,使用GAN進行復雜變換,增強了實際數據。展示結果如下:
-
生成模型的眼睛圖像合成
倫斯勒理工學院的這項工作處理一個非常具體的問題:生成人眼的圖像。這不僅對於在生成的圖像中制作漂亮的眼睛很重要,而且還可以使用生成的眼睛向后工作並解決凝視估計問題:人們在看什么?這將為通用人工智能接口鋪平道路......這是未來,但目前甚至合成生成眼睛也是一個非常困難的問題。作者提出了一個用於合成人眼外形的復雜概率模型,提出了一個生成對抗網絡架構,根據這個模型生成眼睛 - 取得了巨大的成功!
-
圖像修復:填補空白區域
Adobe Research和伊利諾伊大學香檳分校的這項工作致力於填補圖像空白區域的極具挑戰性的問題(如上圖所示)。通常,修復工作需要理解場景:上圖右上角,必須知道臉部是什么樣的,以及頭發和頸部可能是什么樣的。這項工作提出了一種基於GAN的方法,可以利用周圍圖像的特征來改進生成過程。該架構分兩部分:先生成粗略結果,再用另一個網絡進行細化。結果非常好: